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神经 网 络 与 机 替 学 习 ( 原 书 第 3 版 ) 


Neural Networks and Learning Machines Third Edition 


神经 网 络 是 计算 智能 和 机 器 学 习 的 重要 分 支 ， 在 诸多 领域 都 取得 了 很 大 的 成 功 。 在 众多 神经 网 络 著作 
中 ; 影响 最 为 广泛 的 是 Simon Haykin 的 《神经 网 络 原理 》 (第 3 版 更 名 为 《神经 网 络 与 机 器 学 习 》) o 在 本 
书 中 ， 作 者 结合 近年 来 神经 网 络 和 机 器 学 习 的 最 新 进展 ， 从 理论 和 实际 应 用 出 发 ， 全 面 、 系 统 地 介绍 了 神 
经 网 络 的 基本 模型 、 方 法 和 技术 ， 并 将 神经 网 络 和 机 器 学 习 有 机 地 结合 在 一 起 。 

本 书 不 但 注重 对 数学 分 析 方 法 和 理论 的 探讨 ， 而 且 也 非常 关注 神经 网 络 在 模式 识别 、 信 号 处 理 以 及 
控制 系统 等 实际 王 程 问 题 中 的 应 用 := 本 书 的 可 读 性 非常 强 ; 作 者 举重 若 轻 地 对 神经 网 络 的 基本 模型 和 主要 
学 习 理 论 进行 了 深入 探讨 和 分 析 ， 通 过 大 量 的 实验 报告 、 例 题 和 习题 来 帮助 读者 更 好 地 学 习 神 经 网 络 。 

本 版 在 前 一 版 的 基础 上 进行 了 广泛 修订 ， 提供 了 神经 网 络 和 机 器 学 习 这 两 个 越 来 越 重 要 的 学 科 的 最 
新 分 析 。 ` 


本 书 特色 
o 基于 随机 梯度 下 降 的 在 线 学 习 算 法 ; .小 规模 和 大 规模 学 习 问 题 。 
@ 核 方法 ， 包 括 支 持 向 量 机 和 表示 定理 。 
o 信息 论 学 习 模 型 包括 独立 分 量 分 析 -(1CA-+) -相关 独立 分 量 分 析 和 信息 瓶颈 等 。 
o 随机 动态 规划 ， 包 括 晕 近 和 神经 动态 规划 。 
o 逐次 状态 估计 算法 ， 包 括 卡尔 曼 和 粒子 滤波 器 。 
@ 利用 逐次 状态 估计 算法 训练 递归 神经 网 络 。 
e 富有 洞察 力 的 面向 计算 机 的 实验 6 


作者 简介 
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波 器 等 领域 成 果 颇 丰 ， 著 有 多 部 教材 。 q 
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本 书 是 关于 神经 网 络 的 全 面 的、 彻底 的 、 可 读 性 很 强 的 、 最 新 的 论述 。 全 书 共 15 章 ， 主 
要 内 容 包 括 Rosenblatt 感知 器 、 通 过 回归 建立 模型 、 最 小 均 方 算法 、 多 层 感 知 器 、 核 方法 和 
SRAM. RAL. EMM. EA ROH. BAAR. Pee AUR, 
动态 规划 、 神 经 动力 学 、 动 态 系统 状态 估计 的 贝 叶 斯 滤波 等 。 

本 书 适合 作为 高 等 院 校 计算 机 相关 专业 研究 生 及 本 科 生 的 教材 ， 也 可 供 相关 领域 的 工程 
技术 人 员 参 考 。 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 个 
领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 非 出 、 
独 领 风 驭 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 学 科 中 的 许多 
泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 忌 划 了 研究 的 范畴 ， 
还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 益 
迫切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ;而 专业 教材 的 建设 在 教育 战略 上 显 
得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 
几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 
将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真 正 的 世界 一 流 
大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 开始 ， 我 们 就 将 工 
作 重 点 放 在 了 秒 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson，MecGraw- 
Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 
关系 ， 从 他 们 现 有 的 数 百 种 教材 中 最 选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain 
W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, 
Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry 
L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 
研究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 襄 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 在 中 
国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 
品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 其 影 
印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 图 
书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 
教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反 
馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工作 提出 
建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 

华章 网 站 ，www. hzbook. com 

电子 邮件 :; hzjsj@hzbook. com 

联系 电话 : (010) 88379604 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 

邮政 编码 : 100037 
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从 20 世纪 40 年 代 M-P 神经 元 模型 的 提出 开始 ， 神 经 网 络 的 发 展 过 程 可 谓 是 一 波 三 折 。 
1965 年 M. Minsky 和 S. Papert 的 《感知 机 》 使 得 神经 网 络 的 研究 停滞 了 超过 10 年 ， 直 到 20 
世纪 80 年 代 初 Hopfield 网 络 和 误差 反 向 传播 算法 等 的 提出 ， 神 经 网 络 的 研究 才 步 人 恢复 期 。 
时 至 今日 ， 神 经 网 络 系统 研究 的 重要 意义 已 经 得 到 广泛 承认 ， 在 模式 识别 、 人 工 智 能 、 通 信 、 
控制 、 金 融 、 机 器 人 、 生 物 信息 学 等 许多 领域 都 有 广泛 应 用 。 可 以 说 神经 网 络 作为 目前 非 线性 
科学 和 计算 智能 研究 的 主要 内 容 之 一 ， 已 经 成 为 解决 很 多 实际 问题 的 一 种 必要 的 技术 手段 。 

本 书 作者 Simon Haykin 长 期 从 事 神 经 网 络 的 研究 ， 其 关于 神经 网 络 的 系列 教材 是 国际 上 
最 有 影响 力 的 教材 之 一 。 本 书 是 其 经 典 教材 《Neural Networks: A Comprehensive Founda- 
tion》 的 第 3 版。 正如 本 书 的 题目 所 示 ， 这 一 版 对 神经 网 络 和 机 器 学 习 这 两 个 密切 相关 的 分 支 
进行 了 全 面 分 析 ， 在 前 一 版 的 基础 上 作 了 广泛 修订 ， 提供 了 神经 网 络 和 机 器 学 习 这 两 个 重要 性 
持续 增长 的 学 科 的 最 新 分 析 。 本 书 全 面 、 系 统 地 介绍 了 神经 网 络 的 基本 模型 、 基 本 方法 ， 对 神 
经 网 络 的 基本 模型 和 主要 学 习 理 论 作 了 深入 研究 ， 对 神经 网 络 的 最 新 发 展 趋势 和 主要 研究 方向 
进行 了 全 面 而 综合 的 介绍 。 

在 翻译 过 程 中 ， 译 者 常常 为 本 书 作者 严谨 的 治学 态度 及 本 书 博大 精深 的 内 容 而 赞叹 不 已 。 
本 书 综合 了 诸多 神经 网 络 和 机 器 学 习 的 最 新 研究 ， 在 翻译 过 程 中 虽然 力求 准确 地 反映 原著 内 
容 ， 但 由 于 译 者 水 平 有 限 ， 翻 译 中 如 有 错漏 之 处 ， 奶 请 读者 批评 指正 。 

本 书 的 翻译 得 到 了 国家 自然 科学 基金 的 资助 (项 目 编号 60975047)， 特 此 表示 感谢 。 同 
时 ， 感 谢 参与 本 书 翻译 的 全 体 人 员 ， 没 有 他 们 的 辛勤 工作 ， 本 书 的 中 文 译本 是 无 法 顺利 完成 
的 ; 感谢 本 书 第 2 版 《神经 网 络 原理 》) 的 译 者 ， 在 翻译 过 程 中 我 们 大 量 参考 了 第 2 版 中 文 译 
本 的 内 容 ; 还 要 感谢 南京 大 学 计算 机 软件 新 技术 国家 重点 实验 室 的 支持 。 


南京 大 学 计算 机 科学 与 技术 系 
计算 机 软件 新 技术 国家 重点 实验 宝 
We te 

2010 年 10 月 于 南京 
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在 写 这 本 经 典 书 籍 第 3 版 的 时 候 ， 我 遵循 了 本 书 第 1 版 的 基本 原则 ， 写 一 本 关于 神经 网 络 
的 全 面 的 、 彻 底 的 、 可 读 性 很 强 的 、 最 新 的 论述 。 

新 版 本 更 名 为 《神经 网 络 与 机 器 学 习 》， 主 要 是 为 了 反映 以 下 两 个 事实 ， 

1. 感知 器 、 多 层 感知 器 、 自 组 织 映射 及 神经 动力 学 ， 以 及 其 他 一 些 通 常 被 看 成 是 神经 网 
络 一 部 分 的 主题 ， 这 些 内 容 源 自 人 类 大 脑 所 激发 的 灵感 。 

2. 核 方法 ， 例 如 支持 向 量 机 和 核 主 分 量 分 析 ， 这 些 内 容 源 自 统计 学 习 理 论 。 

虽然 这 两 者 之 间 的 确 有 一 些 共 同 的 基本 概念 和 应 用 ， 但 是 在 神经 网 络 和 机 器 学 习 的 具体 操 
作 上 存在 一 些微 妙 的 差别 。 因 而 ， 如 果 将 这 两 者 放 在 同一 个 体系 下 共同 研究 ， 一 些 潜 在 的 主题 
会 变 得 更 丰富 ， 特 别 体 现在 以 下 方面 : 

。 将 神经 网 络 和 机 器 学 习 的 思想 综合 起 来 以 完成 更 难 的 学 习 任务 。 这 些 学 习 任 务 往往 是 

神经 网 络 或 者 机 器 学 习 自 身 所 无 法 解决 的 。 

。 源 自 人 类 大 脑 的 灵感 往往 会 引起 新 的 特别 重要 的 新 发 现 。 

除 此 之 外 ， 本 书 的 范围 也 有 所 扩大 ， 提 供 了 详细 的 动态 规划 和 逐次 状态 估计 ， 这 两 者 各 自 
都 能 够 在 一 些 重 要 方面 影响 强化 学 习 和 监督 学 习 。 


本 书 的 组 织 


本 书 从 导言 部 分 开始 ， 导 言 主要 讲述 了 编写 本 书 的 动机 ， 可 作为 后 续 章 节 的 阅读 基础 。 本 
书包 括 以 下 6 个 部 分 : 
1. 第 1~4 章 构 成 了 本 书 的 第 一 部 分 ， 主 要 介绍 监督 学 习 的 一 些 经 典 方法 。 具 体 介 绍 
如 下 : 
。 第 1 章 描 述 Rosenblatt 感知 器 ， 重 点 介绍 感知 器 收敛 定理 ， 以 及 在 高 斯 环境 下 感知 器 
和 贝 叶 斯 分 类 器 的 关系 。 

。 第 2 章 讲 述 作 为 模型 建立 基础 的 最 小 二 乘法 ， 建 立 了 在 特定 的 高 斯 环境 下 这 一 方法 和 
贝 叶 斯 推理 之 间 的 关系 。 这 一 章 还 讨论 了 用 于 模式 选择 的 最 小 描述 长 度 (MDL) 
算法 。 

。 第 3 章 讲述 最 小 均 方 LMD 算法 及 其 收敛 分 析 。 其 理论 框架 的 分 析 揭 示 出 两 个 原理 : 

Kushner #74 ABI (Langevin) 方程 〈 在 非 平衡 态 热力 学 中 很 著名 ) 。 

这 三 章 通过 对 不 同 概念 的 介绍 揭示 了 其 共同 特点 : 它们 都 是 基于 一 个 计算 单元 。 更 为 重要 
的 是 ， 它 们 从 各 自 的 角度 深入 、 细 致 地 讨论 了 学 习 过 程 的 深层 知识 一 一 这 一 特征 将 在 后 续 章节 
中 进一步 探讨 。 

第 4 章 是 关于 多 层 感知 器 的 ， 是 Rosenblatt 感知 器 的 广义 版 本 。 这 一 相对 比较 长 的 章节 包 
含 如 下 主题 : 

。 反 向 传播 算法 、 其 优点 和 局 限 性 ， 以 及 将 其 作为 一 个 最 优化 方法 来 计算 偏 导数 。 

。 学 习 率 的 最 优 退 火 和 自 适应 控制 。 

。 交叉 验证 。 


Vl 


。 卷 积 网 络 ， 来 自 于 Hubel 和 Wiesel 在 视觉 系统 方面 的 开拓 性 研究 。 

。 将 监督 学 习 视 为 最 优化 问题 ， 集 中 讨论 共 轿 梯度 法 、 拟 牛顿 法 以 及 Marquardt Leven- 
berg 算法 。 

。 非 线性 滤波 。 

最 后 ， 对 于 小 规模 和 大 规模 学 习 问题 作 了 对 比 。 
2. 第 部 分 包括 第 5 章 和 第 6 章 ， 讨 论 了 基于 径 向 基 函 数 (RBF) 网 络 的 核 方法 。 
从 某 种 意义 上 来 说 ， 第 5 章 可 以 看 做 是 对 核 方法 的 深入 介绍 。 具 体 来 说 ， 这 一 章 包括 如 下 
儿 个 方面 。 

。 介绍 Cover 定理 来 作为 对 RBF 网 络 的 构造 结构 的 理论 证 明 。 

。 描述 相对 简单 的 用 于 监督 学 习 的 两 阶段 混合 过 程 ， 第 一 阶段 基于 聚 类 思想 ( 即 K- 均 值 
算法 ) 来 计算 隐藏 层 ， 第 二 阶段 利用 LMS 或 者 最 小 二 乘法 来 计算 网 络 的 线性 输出 层 。 
介绍 核 回归 及 其 与 RBF 网 络 的 关系 。 

第 6 章 介绍 支持 向 量 机 〈SVM)， 通 常 这 一 方法 被 认为 是 一 种 监督 学 习 方 法 。 本 质 

SVM 是 一 个 两 类 分 类 器 ， 本 章 中 将 包括 如 下 几 个 主题 : 

。 定义 在 一 对 线性 可 分 的 两 类 之 间 最 大 分 离 边 缘 的 条 件 。 

。 当 两 个 类 是 线性 可 分 或 者 不 可 分 时 用 来 寻找 最 优 超 平面 的 二 次 最 优化 。 

。 将 SVM MARL, KF RGA Mercer 定理 的 讨论 。 

。 SVM 的 设计 原理 。 

。 e- 不 敏感 损失 冰 数 及 其 在 回归 问题 最 优化 中 的 作用 。 

。 表示 定理 及 希 尔 伯 特 空间 构想 和 再 生 核 希 尔 伯 特 空间 构想 “RKHS) 的 作用 。 

根据 以 上 描述 ， 很 明显 支持 向 量 机 的 基本 理论 是 建立 在 很 强 的 数学 背景 之 上 的 ， 因 而 

SVM 可 以 作为 监督 学 习 的 一 个 具有 强大 计算 能 力 的、 一 流 的 工具 。 
3. 本 书 第 三 部 分 只 有 一 章 第 7 章 。 这 一 章 介 绍 作为 机 器 学 习 核 心 的 正则 化 理论 。 本 
章 将 详细 探讨 如 下 几 个 主题 : 

。 建立 在 第 6 章 讨论 过 的 RKHS 基础 之 上 的 Tikhonov 经 典 正 则 化 理论 。 这 一 理论 隐 含 
了 一 些 深 奥 的 数学 概念 ， Tikhonov 泛 函 的 Fréchet 微分 、Riesz 表示 定理 、Euler- 
Lagrange 方 程 、Green 函数 ， 以 及 多 变量 高 斯 函数 。 

，。 广义 RBF 网 络 及 其 计算 精确 性 的 修正 。 

。 正则 最 小 二 乘 估 计 ， 根 据 表 示 定 理 的 再 讨论 。 

。 正则 化 参数 估计 ， 利 用 Wahba 的 广义 交叉 验证 概念 。 

。 半 监 督学 习 ， 利 用 有 标签 和 无 标签 样本 。 

。 可 微 流 形 及 其 在 流 形 正 则 化 中 的 作用 一 一 设计 半 监 督学 习 机 的 基础 。 

。 寻找 用 于 半 监 督学 习 的 RBF 网 络 中 高 斯 核 项 数 的 光谱 图 理论 。 

。 处 理 半 监督 核 机 器 的 广义 表示 定理 。 

。 用 于 计算 RBF 网 络 线性 输出 层 的 拉 普 拉 斯 正则 最 小 二 乘 (LapRLS) 算法 。 这 里 需要 
说 明 的 是 ， 当 内 在 正则 化 参数 (对 应 于 无 标签 数据 ) 衰减 为 0 的 时 候 ， 算 法 相应 地 误 
减 为 通常 的 最 小 二 乘法 。 

这 一 高 度 理论 化 的 章节 具有 非常 实际 的 重要 意义 。 首 先 ， 它 提供 了 关于 监督 学 习 机 的 正则 

化 基础 。 其 次 ， 它 打下 了 设计 正则 化 半 监 督学 习 机 的 基础 。 

4. 第 8 一 11 章 构成 本 书 的 第 四 部 分 ， 讨 论 非 监督 学 习 。 从 第 8 章 开 始 介绍 由 神经 生物 学 

研究 直接 激发 的 自 组 织 的 四 个 原则 。 

1) 自 增强 学 习 的 Hebb 假定 。 








2) 单个 神经 元 或 者 一 组 神经 元 的 突 触 连 接 为 了 有 限 的 资源 而 进行 的 竞争 。 

3) 在 胜利 神经 元 及 其 邻居 间 的 合作 。 

4) 包含 于 输入 数据 中 的 结构 信息 CITA). 

这 一 章 的 主要 主题 包括 三 个 方面 : 

原则 1)、2) 和 4)》 应 用 于 单个 神经 元 ， 最 大 特征 滤波 的 Oja 规则 来 源 于 这 些 原则 ; 通 
过 自 组 织 获得 的 结果 是 值得 注意 的 ， 它 包含 了 自 底 向 上 和 自 顶 向 下 学 习 。 其 次 ， 最 大 
特征 滤波 思想 被 推广 到 主 分 量 分 析 (PCA) 中 ， 用 来 对 输入 数据 进行 维 数 削 减 ， 其 所 
得 算法 称 为 广义 Hebb 算法 (GHA), 

。 本 质 上 PCA 是 线性 方法 ， 因 而 其 计算 能 力 局 限于 二 阶 统计 量 。 为 了 处 理 高 阶 统计 量 ， 
核 方法 以 类 似 于 第 6 章 支 持 向 量 机 的 相似 方式 应 用 于 PCA， 但 是 和 SVM 的 根本 上 的 
不 同 在 于 ， 核 PCA 是 非 监督 方式 。 

。 遗憾 的 是 ， 在 处 理 自然 图 像 的 时 候 ， 核 PCA 从 计算 的 角度 变 得 很 难 操控 。 为 了 克服 这 
一 计算 局 限 性 ， 把 GHA 和 核 PCA 结合 起 来 组 成 一 个 新 的 在 线 非 监 督学 习 算 法 ， 称 为 
核 Hebb 算法 (KHA)， 这 一 方法 可 以 用 于 图 像 去 曲 。 

KHA 的 产生 是 一 个 将 机 器 学 习 的 想法 和 来 源 于 神经 网 络 的 补充 想法 结合 起 来 的 杰出 例 
T. 结合 所 产生 的 新 算法 克服 了 它们 各 自 的 实际 局 限 性 。 

第 9 章 介 绍 自 组 织 映 射 (SOM) ， 对 自 组 织 映 射 的 开发 遵从 第 8 章 介 绍 的 自 组 织 原 则 。 人 
计算 角度 来 说 ， 自 组 织 映 射 是 一 个 简单 的 算法 ,而 且 具 有 内 在 的 构造 拓扑 映射 的 强大 能 力 , 它 
包括 如 下 一 些 有 用 的 特性 : 

。 从 空间 上 离散 有 逼近 输入 空间 ， 负 责 数据 生成 。 

。 拓扑 次 序 ， 在 某 种 意义 上 神经 元 的 空间 位 置 在 拓扑 图 上 对 应 于 输入 空间 中 的 特定 特征 。 

。 输入 输出 密度 匹配 。 

。 输入 数据 特征 选择 。 

SOM 在 实际 中 被 广泛 应 用 ， 构 造 上 下 文 映 射 和 分 层次 矢量 量化 被 作为 SOM 运算 能 力 的 
两 个 有 说 服 力 的 例子 。 事 实 上 上 ， 令 人 惊异 的 是 ， 尽 管 SOM 展示 了 多 个 有 趣 的 特性 并 且 能 够 解 
决 很 难 的 计算 任务 ， 但 它 依然 缺少 一 个 能 用 来 最 优化 的 目标 函数 。 为 了 填补 这 一 缺口 ， 以 提供 
改进 拓扑 映射 的 可 能 性 ， 自 组 织 映 射 采 用 了 核 方法 。 这 一 改进 是 通过 引 和 一 个 灶 函 数 作为 目标 
函数 并 且 最 大 化 这 个 函数 来 实现 的 。 我 们 再 次 看 到 了 将 来 自 于 神经 网 络 的 思想 和 补充 的 核 理 论 
思想 结合 所 带 来 的 实际 好 处 。 

第 10 章 探 讨 如 何 将 来 自 于 香农 (Shannon) 信息 论 的 原则 作为 工具 来 实现 非 监 督学 习 。 
-SHIRK HRPA AMAR BHR. BAe OR. BB. A (KLD) y 
念 。 这 一 回顾 也 包括 系 词 (copula〉 的 概念 ， 遗 性 的 是 这 一 概念 几 十 年 来 没有 被 注意 到 。 更 重 
要 的 是 ， 系 词 提供 了 对 一 对 相关 随机 变量 之 间 统 计 相 关 性 的 测量 。 在 任何 事件 中 ， 集 中 于 将 互 
信息 作为 目标 哨 数 ， 这 一 章 建立 了 如 下 原则 : 

。 最 大 互信 息 原 则 ， 最 大 化 神经 系统 的 输入 和 输出 之 间 的 互信 息 ; 最 大 互信 息 和 元 余 减 

少 之 间 有 着 很 紧密 的 关系 。 

。 Imax 原则 ， 最 大 化 由 相关 输入 驱动 的 神经 系统 对 的 单一 输出 之 间 的 互信 息 

。 Imin 原则 ， 以 一 种 和 Imax 原则 相似 的 方式 操作 ， 但 这 文 里 是 最 小 化 输出 随机 变量 对 之 
间 的 互信 息 。 

。 独立 分 量 分 析 (CA) 原则 ， 提 供 一 种 很 强 的 工具 用 于 盲 分 离 来 自 统计 独立 源 信号 的 

隐藏 集合 。 当 满足 一 定 的 操作 条 件 时 ，ICA 原则 将 提供 对 源 信号 进行 恢复 的 起 源 程序 
基础 ， 用 于 恢复 的 信号 来 自 于 对 源 信 号 的 线性 混合 变形 的 相应 的 观察 集合 。 这 里 将 介 


绍 两 个 特别 的 ICA 算法 。 
D 自然 梯度 学 习 算 法 ， 除 了 拉 伸 和 排列 之 外 ， 通 过 最 小 化 参数 概率 密度 函数 和 相应 的 
阶乘 分 布 之 间 的 KLD 来 解决 ICA 问题 。 
2) 最 大 集 学 习 算 法 ， 最 大 化 反 混合 输出 的 非 线性 变换 版 本 的 炉 : 这 一 算法 通常 被 认为 
是 ICA 的 最 大 化 信息 算法 ， 也 表现 出 拉 伸 和 排列 性 质 。 
第 10 章 还 描述 了 另 一 SAHARE oa (PesICA 的 重要 的 ICA 算法， 这 一 算法 正如 其 
名 字 那 样 ， 计 算 速 度 快 。 这 一 算法 基于 负 箭 的 概念 最 大 化 对 比 冰 数 ， 对 比 函 数 提 供 了 对 于 随机 
SRNR TER AR. 作为 ICA 的 延续 ， 本 章 继续 描述 了 一 种 称 为 相关 ICA 的 新 算 
法 ， 其 开发 是 根据 最 大 化 信息 和 Imax 原则 的 融合 并 经 由 连接 函数 的 运用 来 完成 的 ， 相 关 ICA 
在 采集 调幅 信号 的 混合 物 的 包 迹 时 非常 有 用 。 最 后 ， 第 10 章 介绍 了 另 一 个 来 自 于 香农 信息 论 
的 称 为 速率 失真 理论 的 概念 ， 这 一 理论 被 用 来 开发 这 一 章 的 最 后 一 个 概念 : 信息 瓶颈 。 给 定 关 
于 输入 向 量 和 ARK) 输出 向 量 的 连接 分 布 ， 这 一 方法 通过 如 下 方式 被 构造 为 约束 最 优化 问 


Al: 在 两 个 信息 量 之 间 做 一 个 权衡 ， 一 个 信息 量 是 关于 输入 的 瓶颈 向 量 中 包含 的 信息 ， 另 一 个 
信息 其 是 关于 输出 的 瓶颈 向 量 中 所 包含 的 信息 。 这 一 章 将 利用 信息 瓶颈 法 来 寻找 数据 表达 的 最 
优 流 形 。 


第 11 章 讲述 非 监督 学 习 的 最 后 途径 ， 利 用 源 自 统计 力学 的 随机 方法 来 实现 。 统 计 力 学 的 
研究 和 信息 论 密 切 相 关 。 这 一 章 从 回顾 Helmholtz A REARS 〈 从 统计 力学 意义 上 ) F 
始 ， 紧 接着 介绍 马尔 可 夫 链 。 然 后 介绍 用 于 产生 马尔 可 夫 链 的 Metropolis 算法 ， 其 转移 概率 将 
收 伍 到 唯一 的 、 稳 定 的 分 布 。 接 下 来 以 两 个 方面 作为 随机 方法 讨论 的 结束 :一 是 用 于 全 局 最 优 
化 的 模拟 退火 ， 二 是 Gibbs 抽样 ， 它 可 以 作为 Metropolis 算法 的 特殊 形式 。 有 了 手头 这 些 统计 
力学 的 背景 知识 ， 就 可 以 讲述 Boltzmann 机 了 ，Boltzmann 机 从 历史 上 来 说 是 文献 中 讨论 的 第 
TSR ATP a. GR, Boltzmann 机 的 学 习 过 程 非常 慢 ， 特 别 是 当 隆 藏 神经 元 的 数目 
很 大 的 时 候 ， 因 而 其 实用 性 是 最 主要 的 缺陷 。 人 们 提出 了 很 多 变种 方法 来 克服 Boltzmann 机 的 
缺点 。 其 中 到 目前 为 止 最 成 功 的 创新 方法 是 深度 信 度 网 络 ， 它 明智 地 把 下 面 的 两 个 功能 组 合 起 
来 形成 了 一 个 高 效 的 机 器 : 
| 。 生成 模型 ， 无 监督 地 一 层 一 层 自 底 向 上 学 习 所 得 结果 。 

ween 自 顶 向 下 学 习 所 得 结果 。 

， 第 11 章 讲述 确定 性 退火 来 克服 模拟 退火 极端 的 计算 需求 问题 ;确定 性 退火 的 问题 
APIA RN 

5. 到 目前 为 止 ， 本 书 集 中 精力 讲述 了 构造 用 于 监督 学 习 、 半 监督 学 习 和 非 监督 学 习 的 算 
法 。 第 12 章 ， 作 为 本 书 下 一 个 部 分 ， 是 关于 强化 学 习 的 。 强 化 学 习 以 一 种 在 线 方式 发 生 ， 作 
为 智能 体 〈 如 机 器 人 ) 与 其 周围 的 环境 相互 作用 的 结果 。 实 际 上 ， 动 态 规划 是 强化 学 习 的 核 
b>. EMH. $ 15 章 的 前 面部 分 用 来 介绍 Bellman 动态 规划 方法 ， 然 后 用 来 证 明 两 个 广泛 使 
用 的 强化 学 习 方 法 : 时 序 差分 学 习 ‘TD) 和 Q -学 习 ， 这 两 种 方法 能 通过 作为 动态 规划 的 特例 
推导 得 出 。TD 学 习 和 Q -学 习 都 是 相对 比较 简单 的 在 线 强 化 学 习 算 法 ， 无 需 转 移 概 率 知 识 。 
然而 ， 其 实际 应 用 局 限于 状态 空间 的 维 数 处 于 中 等 程度 的 情况 。 在 大 规模 动态 系统 中 ， 维 数 灾 
难 变 得 非常 严重 ， 使 得 不 仅仅 是 动态 规划 ， 也 包括 其 近似 形式 的 TD 学 习 和 Q -学 习 变 得 难以 
计算 。 为 了 克服 这 一 严重 的 局 限 性 ， 这 一 章 描述 了 两 个 通 近 动态 规划 的 非 直接 方法 : 

。 线性 方法 ， 称 为 最 小 二 乘 策 略 评估 (LSPV) 算法 。 

。 非 线 性 方法 ， 利 用 神经 网 络 (如 多 层 感 知 器 〉 作 为 通用 逼近 器 。 

6. 本 书 最 后 一 部 分 包括 第 13、14 和 15 章 ， 讨论 非 线性 反馈 系统 ， 特 别 强 调 递 归 神 经 
DEF 


K 


D 第 13 章 研 究 神经 动力 学 ， 对 稳定 性 问题 给 予 了 特别 的 关注 。 这 一 章 介 绍 了 Lyapunov 
直接 法 ， 这 个 方法 包含 两 个 定理 ， 一 个 用 来 处 理 系 统 稳定 性 ， 另 一 个 用 来 处 理 渐 近 稳定 性 。 这 
一 方法 的 核心 是 Lyapunov 函数 ， 通 常 来 说 能 量 函 数 就 能 满足 这 一 函数 的 要 求 。 有 了 这 样 的 背 
景 知识 ， 就 可 以 引出 两 种 联想 记忆 模型 ， 

。 Hopfield 模型 ， 这 一 模型 的 操作 说 明 一 个 复杂 的 系统 是 能 够 产生 简单 的 突现 行为 的 。 

。 盒 中 脑 状态 模型 ， 它 是 聚 类 的 基础 。 

第 13 章 还 讨论 了 混沌 过 程 的 特性 及 其 动态 重 构 的 正则 化 过 程 。 

2) 第 14 章 是 关于 贝 叶 斯 滤波 器 的 ， 贝 叶 斯 滤波 器 至 少 从 概念 意义 上 提供 了 逐次 状态 估计 
算法 的 统一 基础 。 这 一 章 的 发 现 总 结 为 以 下 几 点 : 

。 经 典 的 线性 高 斯 环境 下 的 卡尔 曼 滤 波 器 可 以 通过 利用 最 小 均 方差 准则 来 推导 ， 在 这 _- 

章 最 后 的 一 个 习题 中 ， 证 明 这 样 推导 的 卡尔 曼 滤 波 器 是 贝 叶 斯 滤波 器 的 特例 。 

。 平方 根 滤波 用 来 克服 卡尔 曼 滤波 在 实际 应 用 中 员 到 的 发 散 现象 。 

。 扩展 卡尔 曼 滤 波 (EKF) 用 来 解决 动力 系统 中 非 线性 属于 软 排 序 的 情况 ， 保 持 高 斯 

假设 。 

。 以 一 个 新 的 称 为 数值 积分 卡尔 曼 滤波 器 (CKF) 的 滤波 器 为 例 来 证 明 贝 叶 斯 滤波 器 的 

直接 逼近 形式 。 这 里 再 次 强调 了 保持 高 斯 假设 。 

。 以 粒子 滤波 器 为 例 来 证 明 贝 叶 斯 滤波 器 的 非 直接 通 近 形式 ， 粒 子 滤波 器 的 实现 能 够 调 


节 非 线性 程度 和 非 高 斯 程度 。 
卡尔 曼 滤 波 本 质 上 是 预测 -改正 机 制 ， 第 14 章 接 着 描述 “类 卡尔 曼 滤 波 ” 在 人 类 大 脑 的 一 
定 区 域 的 可 能 作用 。 


本 书 第 15 章 研究 动态 驱动 的 递归 神经 网 络 。 这 一 章 的 开始 部 分 讨论 不 同 的 递归 网 络 结构 
CRE) 及 其 计算 能 力 ， 紧 接着 介绍 训练 递归 网 络 的 两 个 算法 : 通过 时 间 的 反 向 传播 和 实时 递 
归 学 习 。 

遗憾 的 是 ， 这 两 个 方法 都 是 基于 梯度 的 ， 容 易 遭 遇 所 谓 的 消失 梯度 (vanishing-gradient) 
问题 。 为 减轻 这 一 问题 ， 本 书 较 详细 地 讨论 了 利用 非 线 性 逐次 状态 估计 ， 采 用 全 新 的 方式 来 对 
递归 网 络 进行 监督 训练 。 这 里 ， 对 于 扩展 卡尔 曼 滤 波 器 〈 简 单 ， 但 是 导数 依赖 ) 以 及 数值 积分 
卡尔 曼 滤 波 器 〈 导 数 自由 ， 但 是 数学 上 更 加 复杂 ) 作为 监督 学 习 的 逐次 状态 估计 器 的 优 缺 点 进 
行 了 讨论 。 此 外 ， 还 讨论 了 对 递归 网 络 来 说 唯一 的 自 适 应 行为 的 出 现 以 及 利用 自 适 应 技巧 来 增 
强 递 归 网 络 性 能 的 潜在 好 处 。 

在 本 书 不 同 部 分 出 现 的 一 个 重要 的 主题 是 ， 将 监督 学 习 和 半 监 督学 习 应 用 于 大 规模 问题 。 
这 包括 本 书评 论 中 所 指出 的 这 一 主题 还 处 于 发 展 的 初期 阶段 ; 更 重要 的 是 ， 本 书 还 为 这 一 问题 
的 未 来 发 展 描述 了 四 阶段 过 程 。 


本 书 特色 


本 书 完整 、 详 尽 地 讨论 了 各 个 主题 ， 除 此 之 外 ， 本 书 还 有 以 下 几 个 截然 不 同 的 特色 : 

1. 第 1~? 章 以 及 第 10 章 包 含 计算 机 实验 ， 涉 及 双 月 形态 ， 为 两 类 分 类 问题 产生 数据 。 
实验 涵盖 了 从 简单 的 线性 可 分 模式 例子 到 困难 的 不 可 分 模式 例子 。 作 为 运行 例子 的 双 月 形态 ， 
被 用 于 第 1 一 7 章 以 及 第 10 章 ， 因 而 提供 了 一 个 用 于 研究 和 比较 这 8 章 中 描述 的 算法 的 实验 
途径 。 

2. 针对 第 8 章 的 主 分 量 分 析 、 第 9 章 的 SOM 和 核 SOM， 以 及 第 15 章 的 利用 EKF 和 
CKF 算法 对 Mackay-Glass 吸引 子 进 行动 态 重 构 等 ， 也 进行 了 计算 机 实验 。 

3. 给 出 了 几 个 利用 现实 数据 进行 研究 的 例子 : 


。 第 7 章 讨论 了 利用 拉 普 拉 斯 RLS 算法 对 美国 邮政 服务 (USPS 数据 进行 半 监 督学 习 。 
。 第 8 章 讨论 了 如 何 将 PCA 应 用 于 手写 数字 数据 ， 并 描述 了 如 何 对 图 像 进行 编码 和 
MR, 

。 第 10 Al MBE RAS MICA 对 自然 图 像 进行 分 析 。 

。 第 13 章 利 用 正则 RBF 网 络 将 动态 重 构 应 用 于 Lorenz 吸引 子 。 

第 15 章 也 包含 了 一 节 关 于 模型 参照 自 适应 控制 系统 的 案例 研究 。 

4. 每 一 章 的 最 后 都 有 注释 和 参考 文献 用 于 进一步 学 习 ， 每 章 末尾 还 提供 了 习题 ， 用 来 练 
习 并 丰富 读者 的 专业 知识 。 

本 书 的 “术语 ” 表 也 进行 了 扩充 ， 包 含 了 用 于 处 理 和 矩阵 分 析 和 概率 论 问 题 的 方法 学 解释 。 

5. 本 书 所 有 图 和 表格 的 PowerPoint 文件 都 可 以 提供 给 教师 ， 可 到 华章 网 站 (www. 
hzbook. com) 下 载 。 , 

我 们 尽 了 最 大 努力 来 使 本 书 不 犯错 误 ， 更 重要 的 是 ， 我 们 也 尽力 提高 它 的 可 读 性 。 


Simon Haykin 
于 Ancaster, Ontario 
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SVD singular value decomposition 奇异 值 分 解 

SVM support vector machine 支持 向 量 机 

TD temporal difference 时 序 差分 

TDNN time-delay neural network 时 延 神经 网 络 

TLFN time-lagged feedforward network Hs) [a] FA Bi ia PO A 

VC Vapnik-Chervononkis (dimension) Vapnik-Chervononkis ( 维 数 ) 

VLSI very-large-scale integration 超大 规模 集成 

XOR exclusive OR 异 或 

重要 的 符号 

a action 动作 

a'b inner product of vectors a and b 向 量 a Alb 的 内 积 

ab? outer product of vectors a and b 向 量 a 和 bb 的 外 积 

( binomial coefficient 二 项 式 系数 

AUB unions of A and B A MB 的 并 集 

B inverse of temperature 温度 的 道 

bı bias applied to neuron & 神经 元 & HRE 

cos(a,b) cosine of the angle'between vectors a and b 向 量 a 和 hb 夹 角 的 余弦 

Cuv(usyv) probability density function of copula 系 词 的 概率 密度 函数 

D depth of memory 记忆 深度 

Dije Kullback-Leibler divergence between 概率 密度 函数 f 和 g 之 间 的 Kullback- 
probability density functions f and g Leibler 散 度 

D adjoint of operator D BF D 的 伴随 矩阵 

五 energy function BE Het pa BY 

E; energy of state i in statistical mechanics 统计 力学 中 状态 i 的 能 景 

E statistical expectation operator 统计 期 望 算 子 

(E) average energy 平均 能 量 

exp exponential 指数 

Eav average squared error, or sum of squared errors 平均 平方 误差 或 平方 误差 和 

Eln) instantaneous value of the sum of squared errors 平方 误差 和 的 瞬时 值 

rotat total sum of error squares 总 平方 误差 和 

F free energy 自由 能 量 

Fe * subset (network) with minimum empirical 经 验 风 险 最 小 的 子 集 (网 络 ) 
risk 

H Hessian (matrix) Hessian 矩阵 

H’ inverse of Hessian H Hessian 42% H 的 道 

i square root of 一 1，also denoted by j 一 1 的 平方 根 ， 亦 记 作 7 

I identity matrix 单位 和 矩阵 

I Fisher’s information matrix Fisher 信息 矩阵 

J mean-square error 均 方 误差 


六 (7 kn) 


Fa (kin) 


R 
t 


《Xj) 


Jacobian (matrix) 
square root of matrix 卫 


transpose of square root of matrix P 


error covariance matrix in Kalman filter theory 


Boltzmann constant 


logarithm 


log-likelihood function of weight vector w 


log-likelihood function of weight vector w 


based on a single example 
controllability matrix 
observability matrix 


discrete time 


probability of state i in statistical mechanics 


transition probability from state i to state j 


stochastic matrix 


conditional probability of error e given that 


the input is drawn from class ®@ 


probability that the visible neurons of a 
Boltzmann machine are in state a, given 


that the network is in its clamped condition 


(i. e. , positive phase) 


probability that the visible neurons of a 


Boltzmann machine are in state ay given 


that the network is in its free-running 
condition Ci. e. ,negative phase) 
estimate of autocorrelation function of 


xz;(n) and x,(n) 


estimate of cross-correlation function of 


d(n) and x, (n) 

correlation matrix of an input vector 
continuous time 

temperature 


training set (sample) 


operator denoting the trace of a matrix 


variance operator 


Lyapunov function of state vector x 


induced local field or activation potential 


of neuron j 


optimum value of synaptic weight vector 


weight of synapse j belonging to neuron & 


optimum weight vector 


equilibrium value of state vector x 


average of state Zi in a “thermal” sense 


Jacobi 4 F 

和 矩阵 了 的 方 根 

和 矩阵 P 的 方 根 的 转 置 

卡尔 曼 滤 波 理论 中 的 误差 协 方差 矩阵 
Boltzmann 常数 

对 数 

权 值 向 量 w 的 对 数 似 然 函 数 

单 样 本 的 权 值 向 量 w 的 对 数 似 然 函 数 


可 控 和 矩阵 

可 观察 矩阵 

离散 时 间 

统计 力学 中 状态 i 的 概率 

从 状态 i 到 状态 7 的 转移 概率 
随机 矩阵 

从 类 4 中 输入 时 误差 e 的 条 件 概率 


假设 网 络 处 于 钳制 条 件 〈 即 正 向 阶段 ) 
时 Boltzmann 机 的 可 见 神经 元 状态 
为 a 的 概率 


假设 网 络 处 于 自由 运行 条 件 〈 即 负 向 
阶段 ， 时 ，Boltzmann 机 的 可 见 神 经 
元 状态 为 a 的 概率 


ZX;《n) 和 x.) A OAS Rat 
4d(n) 和 xe Cn) HIE MAAK BR tt 


输入 向 量 的 相关 矩阵 

连续 时 间 

温度 

训练 集 ( 样 本) 

表示 和 矩阵 迹 的 算 子 

方差 算 子 

状态 向 量 x I) Lyapunov 函数 
神经 元 7 的 诱导 局 部 域 或 激活 位 势 





突 触 权 值 向 量 的 最 优 值 

属于 神经 元 & 的 突 触 7 的 突 触 权 值 
最 优 权 值 向 量 
状态 向 量 x 的 平衡 值 

“ 热 ” 意 义 下 状态 z; 的 平均 





z estimate of x, signified by the use of a 
caret (hat) 

la | absolute value (magnitude) of x 

x" complex conjugate of x, signified by asterisk 
as superscript 

ll x || Euclidean norm (length) of vector x 

x? transpose of vector x, signified by the 
superscript T 

zg! unit-time delay operator 

Z partition function 

6; (1) local gradient of neuron j at time n 

Aw small change applied to weight w 

V gradient operator 

V? Laplacian operator 

Vu] gradient of J with respect to w 

V.F divergence of vector F 

7 learning-rate parameter 

K cumulant 

g policy 

Or threshold applied to neuron k Ci. e., 

‘negative of bias b,) 

A regularization parameter 

At kth eigenvalue of a square matrix 

ple) nonlinear activation function of neuron & 

€ symbol for “belongs to” 

U symbol for “union of” 

门 symbol for “intersection of” 

x symbol for convolution 

十 superscript symbol for pseudoinverse of 
a matrix 

十 superscript symbol for updated estimate 

开 区 间 和 闭 区 间 


。 变量 工 的 开 区 间 a, dD 表示 a<z<b, 
。 变量 z 的 闭 区 间 Le, b] 表示 a[b. 
。 变量 z 的 半 闭 半 开 区 间 [a，b) 表示 a 过 + 过 5p; 类似 地 ， 变 量 x 的 半 开 半 闭 区 间 (a, b] 

表示 arb, 


最 小 和 最 大 
。 符号 arg minf(w) 表示 函数 fw) 关于 变 元 向 量 w 的 最 小 值 。 
。 符号 arg maxf(w) 表示 函数 fw) 关于 变 元 向 量 w 的 最 大 值 。 


wi 


x 的 估计 ， 用 加 字符 号 ”〈 帽 符号 ) 表示 


x 的 绝对 值 〈 幅 度 ) 
状态 z WRI, ABS « 作 上 标 


向 量 x 的 欧 几 里 得 范 数 〈 长 度 ) 
向 量 x 的 转 置 ， 用 上 标 T Ras 
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记号 工 : BRA 


标量 : 用 小 写 斜 体 符 号 表示 标量 。 
向 量 : 用 小 写 粗 体 符号 表示 向 量 。 
向 量 被 定义 为 一 列 标 量 。 因 而 m 维 向 量 x Ay 的 内 积 可 以 写成 
yı 
xy = [21 22s Em] > 一 Say, 
其 中 ， 上 标 用 来 表示 矩阵 转 置 。 其 内 积 为 标量 ， 因 而 我 们 有 
yx= x’y 
矩阵 : 用 大 写 粗 体 符号 表示 矩阵。 
矩阵 相 线 是 通过 行 和 列 的 相 乘 来 计算 的 。 为 了 说 明 这 一 点 ， 考 虚 mX& EX RX AY 
矩阵 Y。 这 两 个 矩阵 的 乘积 产生 一 个 mX 的 矩阵 
Z = XY 
ERAH, HE Z 的 第 ij 个 分 量 是 通过 矩阵 X E AE Y 的 第 7 列 相 乘 而 得 到 
的 ， 这 两 者 都 由 有 个 标量 组 成 。 
一 对 m 维 向 量 x Al y 的 外 积 写 成 xy*， 是 一 个 mXm 的 矩阵 。 


记号 工 : 概率 论 

随机 变量 : 用 大 写 的 斜体 符号 来 表示 随机 变量 。 随 机 变量 的 样本 值 〈 即 单 次 实现 ) 用 相应 
的 小 写 斜体 符号 来 表示 。 例 如 ， 我 们 用 XX 来 表示 随机 向 量 ， 而 用 r 来 表示 其 样本 值 。 

随机 向 量 : 用 大 写 的 粗 体 符号 来 表示 随机 向 量 。 相 似 地 ， 随 机 向 量 的 样本 值 用 相应 的 小 写 
粗 体 符号 来 表示 。 例 如 ， 我 们 用 XX 来 表示 随机 向 量 ， 而 用 x 来 表示 其 样本 值 。 

随机 变量 X 的 概率 密度 函数 (pdf) 由 px(x) 来 表示 ， 这 是 关于 样本 值 x 的 函数 ; 其 下 标 X 
是 用 来 提示 pdf 是 关于 随机 向 量 关 的 。 
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0.1 什么 是 神经 网 络 


自从 认识 到 人 脑 计算 与 传统 的 数字 计算 机 相 比 是 完全 不 同 的 方式 开始 ， 关 于 人 工 神 经 网 络 
(一 般 称 为 “神经 网 络 ”(neural network)) 的 研究 工作 就 开始 了 。 人 脑 是 一 个 高 度 复杂 的 、 非 
线性 的 和 并 行 的 计算 机 器 (信息 处 理 系统 )。 人 脑 能 够 组 织 它 的 组 成 成 分 ， 即 神经 元 ， 以 比 今 
天 已 有 的 最 快 的 计算 机 还 要 快 许多 倍 的 速度 进行 特定 的 计算 (如 模式 识别 、 感 知 和 发 动机 控 
制 )。 例 如 ， 考 虑 人 类 视觉 ， 这 是 一 个 信息 处 理 任务 。 视 觉 系 统 的 功能 是 为 我 们 提供 一 个 关于 
周围 环境 的 表示 ， 并 且 更 重要 的 是 提供 我 们 与 环境 交互 (interact) 所 需 的 信息 。 具 体 来 说 ， 
完成 一 个 感知 识别 任务 (例如 识别 一 张 被 租 入 陌生 场景 的 熟悉 的 脸 ) 人 脑 大 概 需要 100 一 200 
毫秒 ， 而 一 台 高 效 的 计算 机 却 要 花费 比 人 脑 多 很 多 的 时 间 才 能 完成 一 个 相对 简单 的 任务 。 

再 举 一 个 例子 ， 考虑 一 只 蝙蝠 的 声呐 。 声 呐 就 是 一 个 活动 回声 定位 系统 。 除 了 提供 目标 
《例如 飞行 的 昆虫 ) 有 多 远 的 信息 外 ， 蝙 蝠 的 声呐 可 以 搜集 目标 的 相对 速度 、 目 标 大 小 、 目 标 
不 同 特征 的 大 小 以 及 它 的 方位 角 和 仰角 的 信息 。 所 有 这 些 信 息 都 从 目标 回声 中 提取 ， 而 所 有 需 
要 的 复杂 神经 计算 只 在 李子 般 大 小 的 脑 中 完成 。 事 实 上 ， 一 只 回声 定位 的 蝙 晤 可 以 灵巧 地 以 很 
高 的 成 功率 追逐 和 捕捉 目标 ， 这 一 点 足以 使 雷达 或 声呐 工程 师 们 自 叹 弗 如 。 

那么 ， 人 脑 或 蝙蝠 的 脑 是 如 何 做 到 这 一 点 的 呢 ? 脑 在 出 生 的 时 候 就 有 很 复杂 的 构造 和 具 
有 通过 我 们 通常 称 为 的 “经 验 ” 来 建立 它 自己 规则 的 能 力 。 确 实 ， 经 验 是 经 过 时 间 积 累 的 ， 
人 脑 在 出 生 后 头 两 年 内 发 生 了 非常 大 的 进化 〈 即 硬 接线 )， 但 是 进化 将 超越 这 个 阶段 并 继续 
进行 。 

一 个 “进化 中 ”的 神经 系统 是 与 可 塑 的 大 脑 同 义 的 。 可 塑性 《plasticity〉 允许 进化 中 的 神 
经 系统 适应 (adapt) 其 周边 环境 。 可 塑性 似乎 是 人 类 大 脑 中 作为 信息 处 理 单元 的 神经 元 功能 
的 关键 ， 同 样 ， 它 在 人 工 神 经 元 组 成 的 神经 网 络 中 亦 是 如 此 。 最 普通 形式 的 神经 网 络 ， 就 是 对 
人 脑 完成 特定 任务 或 感 兴趣 功能 所 采用 的 方法 进行 建 模 的 机 器 。 网 络 一 般 用 电子 元 件 实现 或 者 
用 软件 在 数字 计算 机 上 模拟 。 在 本 书 中 ， 我 们 集中 介绍 一 类 重要 的 神经 网 络 ， 这 类 网 络 通过 学 
习 过 程 来 实现 有 用 的 计算 。 为 了 获得 良好 性 能 ， 神 经 网 络 使 用 一 个 很 庞大 的 简单 计算 单元 间 的 
相互 连接 ， 这 些 简 单 计算 单元 称 为 “神经 元 ”或 者 “处 理 单元 ”"。 据 此 我 们 给 出 将 神经 网 络 看 
作 一 种 自 适 应 机 器 的 定义 : 


神经 网 络 是 由 简单 处 理 单元 构成 的 大 规模 并 行 分 布 式 处 理 器 ， 天 然 地 具有 存储 经 验 知识 和 
使 之 可 用 的 特性 。 神 经 网 络 在 两 个 方面 与 大 脑 相 似 : 

1. 神经 网 络 是 通过 学 习 过 程 从 外 界 环境 中 获取 知识 的 。 

2. 互 连 神 经 元 的 连接 强度 ， 即 突 触 权 值 ， 用 于 存储 获取 的 知识 。 

用 于 完成 学 习 过 程 的 程序 称 为 学 习 算 法 ,其 功能 是 以 有 序 的 方式 改变 网 络 的 突 触 权 值 以 获 
得 想 要 的 设计 目标 。 

对 突 触 权 值 的 修改 提供 了 神经 网 络 设计 的 传统 方法 。 这 种 方法 和 线性 自 适应 滤波 器 理论 很 
接近 ， 而 滤波 器 理论 已 经 很 好 地 建立 起 来 并 被 成 功 地 应 用 在 很 多 领域 (Widrow and Stearns, 
1985; Haykin，2002) 。 但 是 ， 受 人 脑 的 神经 元 会 死亡 以 及 新 的 突 触 连接 会 生长 的 事实 所 局 
发 ， 神 经 网 络 修改 它 自身 的 拓扑 结构 也 是 可 能 的 。 
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神经 网 络 的 优点 

很 明显 ， 神 经 网 络 的 计算 能 力 可 通过 以 下 两 点 得 到 体现 ， 第 一 ， 神 经 网 络 的 大 规模 并 行 分 
布 式 结构 ; 第 二 ， 神 经 网 络 的 学 习 能 力 以 及 由 此 而 来 的 泛 化 能 力 。 泛 化 (generalization〉 是 指 
神经 网 络 对 未 在 训练 〈 学 习 ) 过 程 中 过 到 的 数据 可 以 得 到 合理 的 输出 。 这 两 种 信息 处 理 能 力 让 
神经 网 络 可 以 找到 一 些 当 前 难以 处 理 的 复杂 (大 规模 ) 问题 的 好 的 近似 解 。 但 是 在 实践 中 ， 神 
经 网 络 不 能 单独 做 出 解答 ， 它 们 需要 被 整合 在 一 个 协调 -一致 的 系统 工程 方法 中 。 只 体 来 说 ， 一 个 复 
杂 问 题 往往 被 分 解 成 若干 个 相对 简单 的 任务 ， 而 神经 网 络 处 理 与 其 能 力 相符 的 子 任务 。 但 是 ， 我 们 
在 建立 一 个 可 以 模拟 人 脑 的 计算 机 结构 〈 如 果 可 能 ) 之 前 还 有 很 长 的 路 要 走 ， 认识 这 一 点 是 很 重 
要 的 。 

神经 网 络 具 有 下 列 有 用 的 性 质 和 能 力 : 

1. 非 线性 (nonlinearity): 人 工 神 经 元 可 以 是 线性 或 者 非 线性 的 。 由 非 线性 神经 元 互相 连 
接 而 成 的 神经 网 络 自身 是 非 线 性 的 ， 并 且 从 某 种 特别 意义 上 来 说 非 线 性 是 分 布 于 整个 网 络 中 
的 。 非 线性 是 一 个 非常 重要 的 特性 ， 特 别 是 当 产 生 输 入 信号 (如 语音 信号 ) 的 内 部 物理 机 制 是 
天 生 非 线性 的 时 候 。 

2. 输入 输出 映射 (input-output mapping): 称 之 为 有 教师 学 习 (learning with a teacher) 
或 监督 学 习 (supervised learning) 的 关于 学 习 的 流行 方法 。 它 使 用 带 标 号 的 训练 样 例 Ctrain- 
ing example) 或 任务 样 例 (task example) 对 神经 网 络 的 突 触 权 值 进行 修改 。 每 个 样 例 由 一 个 
唯一 的 输入 信号 (input signal) 和 相应 的 期 望 (目标 ) 响应 (desired (target) response) 组 
成 。 从 一 个 训练 集中 随机 选取 一 个 样 例 提 供给 网 络 ， 网 络 就 调整 它 的 突 触 权 值 (自由 参数 )， 
以 最 小 化 期 望 响应 和 由 输入 信号 以 适当 的 统计 准则 产生 的 网 络 实际 响应 之 间 的 差别 。 使 用 训练 
集中 的 很 多 样 例 来 重复 训练 神经 网 络 ， 直 到 网 络 达到 对 突 触 权 值 没有 显著 修正 的 稳定 状态 为 
止 。 先 前 已 经 使 用 过 的 训练 样 例 可 能 还 要 在 训练 期 间 以 不 同 顺序 重复 使 用 。 因 此 对 当前 问题 来 
说 ， 神 经 网 络 是 通过 建立 输入 输出 映射 来 从 样 例 中 学 习 的 。 这 样 的 方法 使 人 想起 了 非 参 数 统计 
推断 (nonparametric statistical inference) 的 研究 ， 它 是 非 模型 估计 统计 处 理 的 一 个 分 支 ， 或 
者 从 生物 学 角度 看 ， 称 为 白板 学 习 (tabula rasa learning, Geman 等 ，1992) 。 这 里 使 用 “ 非 参 
数 ” 这 一 术语 表示 的 一 个 事实 是 ， 没 有 对 输入 数据 的 统计 模型 作 任何 先 验 假 设 。 比 如 ， 考 虑 一 
个 模式 分 类 (pattern classification) 任务 ， 这 里 的 要 求 是 把 代表 具体 物体 或 事件 的 输入 信和 号 分 
类 到 几 个 预先 分 好 的 类 中 去 。 关 于 这 一 问题 的 非 参数 方法 中 ， 要 求 利用 样本 集 “ 估 计 ” 输 入 信 
号 空间 中 模式 分 类 任务 的 任意 决策 边界 ， 并 且 不 使 用 概率 分 布 模型 。 而 监督 学 习 方法 也 隐 含 了 
类 似 的 观点 ， 这 就 提示 在 神经 网 络 的 输入 输出 映射 和 非 参 数 统计 推断 之 间 存 在 相近 的 类 比 。 

3. 自 适 应 性 (adaptivity): 神经 网 络 具有 调整 自身 突 触 权 值 以 适应 外 界 环境 变化 的 固有 能 
力 。 特 别 是 ， 一 个 在 特定 运行 环境 下 接受 训练 的 神经 网 络 ， 在 环境 条 件 变 化 不 大 的 时 候 可 以 很 
容易 地 进行 重新 训练 。 而 且 ， 当 它 在 一 个 不 稳定 (nonstationary) 环境 〈 即 它 的 统计 特性 随时 
间 变 化 中 运行 时 ， 可 以 设计 神经 网 络 使 得 其 突 触 权 值 随时 间 实 时 变化 。 用 于 模式 分 类 、 信 号 
处 理 和 控制 的 神经 网 络 与 它 的 自 适应 能 力 相 看 合 ， 就 可 以 变 成 能 进行 自 适应 模式 分 类 、 自 适应 
信和 号 处 理 和 自 适应 控制 的 有 效 工具 。 作 为 一 般 规 则 ， 在 保证 系统 保持 稳定 时 ， 一 个 系统 的 自 适 
应 性 越 好 ， 它 被 要 求 在 一 个 不 稳定 环境 下 运行 时 其 性 能 就 越 具 和 鲁 棒 性 。 但 是 ， 需 要 强调 的 是 ， 
自 适应 性 不 一 定 总 能 导致 鲁 棒 性 ， 实 际 还 可 能 导致 相反 结果 。 比 如 ， 一 个 短 时 常数 自 适 应 系统 
可 能 变化 过 快 ， 以 至 于 对 干扰 扰动 有 所 反应 ， 从 而 引起 系统 性 能 的 急剧 恶化 。 为 了 获得 自 适 应 
性 的 最 大 好 处 ， 系 统 的 主要 时 间 常 数 应 该 长 到 可 以 忽略 干扰 扰动 ， 却 依然 足够 短 以 能 反应 环境 
的 重要 变化 。 这 一 问题 通常 被 称 为 稳定 性 -可 塑性 困境 (Grossberg, 1988), 

4, 证 据 响 应 (evidential response) ， 在 模式 分 类 问题 中 ， 神经 网 络 可 以 设计 成 不 仅 提供 选 
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择 哪 一 个 特定 模式 的 信息 ， 还 提供 关于 决策 的 置信 和 度 信息 。 后 者 可 以 用 来 拒 判 那些 可 能 出 现 的 
过 于 模糊 的 模式 ， 从 而 进一步 改善 网 络 的 分 类 性 能 。 

5. 上 下 文 信息 (contextual information): 神经 网 络 的 特定 结构 和 激发 状态 代表 知识 。 网 
络 中 每 一 个 神经 元 都 受 网 络 中 所 有 其 他 神经 元 全 局 活动 的 潜在 影响 。 因 此 ， 神 经 网 络 将 很 自然 
地 能 够 处 理 上 下 文 信息 、 

6. 容错 性 (fault tolerance); 一 个 以 硬件 形式 实现 的 神经 网 络 具 有 天 生 的 容错 性 ， 或 者 说 
具有 和 鲁 棱 计算 的 能 为， 在 这 种 意义 上 其 性 能 在 不 利 的 运行 条 件 下 是 逐渐 下 降 的 。 比 如 ， 一 个 神 
经 元 或 它 的 连接 损坏 了 ， 存 储 模 式 的 记忆 性 在 质量 上 会 被 前 弱 。 但 是 ， 由 于 网 络 信息 存储 的 分 
布 特性 ， 在 网 络 的 总 体 响 应 严重 恶化 之 前 这 种 损坏 是 分 散 的 。 因 此 ， 原 则 上 ， 神 经 网 络 从 性 能 
上 显示 了 一 个 缓慢 恶化 的 过 程 而 不 是 灾难 性 的 失败 。 有 一 些 关 于 和 鲁 棒 性 计算 的 经 验证 据 ， 但 通 
常 它 是 不 可 控 的 。 为 了 确保 网 络 事实 上 的 容错 性 ， 有 必要 在 设计 训练 网 络 的 算法 时 采用 正确 的 
度量 (Kerlirzin and Vallet, 1993), 

7. VLSI 实现 (VLSI implementability) ， 神 经 网 络 的 大 规模 并 行 性 使 它 具 有 快速 处 理 某 些 
任务 的 潜在 能 力 。 这 一 特性 使 得 神经 网 络 很 适合 使 用 超大 规模 集成 《very-large-scale-integrat- 
ed, VLSI) 技术 来 实现 。VLSI 的 一 个 特殊 优点 是 可 以 提供 一 个 以 高 度 分 层 的 方式 来 捕捉 真实 
复杂 行为 的 方法 (Mead，1989)。 

8. 分 析 和 设计 的 一 致 性 : 基本 上 ， 神 经 网 络 作为 信息 处 理 器 具有 通用 性 。 我 们 这 样 说 是 
因为 涉及 神经 网 络 应 用 的 所 有 领域 都 使 用 同样 的 记号 。 这 一 特征 以 不 同 的 方式 表现 出 来 : 

。 神经 元 ， 不 管 形式 如 何 ， 在 所 有 的 神经 网 络 中 都 代表 一 种 相同 成 分 。 

。 这 种 共性 使 得 在 不 同 应 用 中 的 神经 网 络 共享 相同 的 理论 和 学 习 算 法 成 为 可 能 。 

。 模块 化 网 络 可 以 用 模块 的 无 颖 集成 来 实现 。 

9. 神经 生物 类 比 : 神经 网 络 的 设计 是 由 与 人 脑 的 类 比 引发 的 ， 人 脑 是 一 个 容错 的 并 行 处 
理 的 实例 ， 说 明 这 种 处 理 不 仅 在 物理 上 是 可 实现 的 ， 而 且 还 是 快速 、 高 效 的 。 神 经 生物 学 家 将 
CAL) 神经 网 络 看 作 是 一 个 解释 神经 生物 现象 的 研究 工具 。 另 一 方面 ， 工 程 师 对 神经 生物 学 
的 关注 在 于 将 其 作为 解决 复杂 问题 的 新 思路 ， 这 些 问 题 比 基于 常规 的 硬件 线路 设计 技术 所 能 解 
决 的 问题 更 复杂 。 下 面 两 个 例子 说 明了 这 两 种 观点 : 

。 在 Anastasio (1993) 中 ， 将 前 庭 视觉 反射 《vestibulo-ocular reflex, VOR) 的 线性 系 

统 模型 和 基于 在 0. 6 节 描 述 及 第 15 章 中 详细 讲述 的 递归 网 络 的 神经 网 络 模型 进行 了 比 
较 。 前 庭 视觉 反射 是 腿 球 运动 系统 的 一 部 分 ， 其 作用 是 让 眼球 向 与 头 转动 方向 相反 的 
方向 运动 ， 以 维持 视觉 〈 视 网 膜 ) 图 像 的 稳定 性 。VOR 由 前 庭 核 酸 的 前 端 神经 元 调 
节 ， 前 端 神经 元 从 前 庭 感 知 神经 元 中 接受 头 部 旋转 信息 并 加 以 处 理 ， 将 结果 告知 眼球 
肌肉 的 动作 神经 元 。 输 入 〈 头 部 旋转 信息 ) 和 输出 〈 眼 球 旋 转 ) 可 以 精确 确定 ， 因 此 
VOR 很 适合 建 模 。 另 外 ， 它 是 比较 简单 的 反射 作用 ， 并 且 其 组 成 神经 元 的 神经 生理 学 
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在 前 庭 核酸 中 是 最 复杂 、 也 是 最 引 人 注 意 的 。VOR 以 前 已 经 用 集 块 线性 系统 描述 器 和 
控制 理论 模型 化 了 。 这 些 模型 对 解释 VOR 的 整体 性 质 有 一 些 作 用 ， 但 是 对 了 解 其 组 
成 神经 元 特性 却 用 处 不 大 。 这 种 情况 通过 建 模 神经 网 络 已 经 被 大 大 改善 了 。VOR 的 递 
归 网 络 模型 (使 用 第 15 章 描述 的 实时 递归 学 习 算法 设计 ) 能 通过 调节 VOR 的 神经 元 
(特别 是 前 庭 核酸 神经 元 ) 重 现 和 解释 处 理 信号 时 的 静态 、 动 态 、 非 线性 和 分 布 式 等 多 
方面 特性 。 

。 视网膜 不 同 于 人 脑 的 其 他 任何 部 分 ， 是 我 们 开始 将 外 部 环境 的 物理 图 像 投射 到 一 行 接 

收 器 上 形成 的 视觉 表示 和 第 一 个 神经 图 像 相 结合 的 地 方 。 它 是 眼球 后 部 的 神经 组 织 


B. 其 功能 是 将 光学 图 像 转 换 成 神经 图 像 并 沿 光 神经 传输 给 大 量 的 视觉 中 枢 以 便 进 一 
步 处 理 。 这 是 一 个 复杂 的 工作 ， 可 以 从 视网膜 的 突 触 组 织 得 到 证 明 。 在 状 椎 动物 的 视 
网 膜 中 ， 光 图 像 转化 成 神经 图 像 的 过 程 由 三 个 阶段 组 成 (Sterling, 1990), 

1) 受 体 神经 元 层 的 图 像 传导 。 

2) 结果 信和 号 (产生 于 对 光 刺 激 的 反应 ) 由 化 学 性 突 触 传输 给 一 层 双 极 细胞 。 

3) 同样 ， 由 化 学 性 突 触 把 结果 信号 传 给 神经 节 细胞 的 输出 神经 元 。 

在 两 个 突 触 阶段 〈 即 从 受 体 到 双 极 细胞 和 从 双 极 细胞 到 神经 节 细 胞 ) ， 有 专门 侧 向 连接 的 
神经 元 ， 分 别称 为 水 平 细胞 的 神经 元 和 无 长 突 细 胞 的 神经 元 。 这 些 神经 元 的 工作 是 修改 突 触 层 
之 闻 的 传输 。 另 外 还 有 称 为 中 间 网 状 细胞 的 离心 元 素 ， 它 们 的 工作 是 将 信号 从 内 部 突 触 层 传 到 
外 部 突 触 层 。 一 些 研 究 人 员 已 经 建立 了 模拟 视网膜 结构 的 电子 芯片 。 这 些 电 子 芯片 称 为 神经 形 
Æ (neuromorphic) 集成 电路 ， 这 个 术语 由 Mead (1989) 所 创造 。 神 经 形态 的 图 像 传感器 是 
由 一 排 感光 器 与 每 个 图 形 元 素 URK) 的 模拟 回路 结合 而 成 的 。 它 能 模拟 视网膜 适应 局 部 的 亮 
度 变 化 、 检 测 边缘 以 及 检测 运动 。 神 经 生物 学 模拟 〈 例 如 神经 形态 集成 电路 ) A TERH 
MR: 它 提供 了 一 种 希望 和 信念 ， 并 在 一 定 程度 上 提供 一 种 存在 性 证 明 ， 即 对 神经 生物 结构 的 
物理 上 的 了 解 对 电子 学 工艺 和 超大 规模 集成 电路 技术 有 多 方面 的 影响 。 

有 了 神经 生物 学 的 启示 ， 我 们 对 人 脑 及 其 组 织 的 结构 层次 作 简要 的 考察 看 来 是 合适 的 。 


0.2 人 类 大 脑 


人 的 神经 系统 可 看 作 三 阶段 系统 ， 如 同 图 1 (Arbib，1987) 所 描绘 的 框图 所 示 。 系 统 的 
中 央 是 人 脑 ， 由 神经 网 络 表示 ， 它 持续 地 接收 信息 ， 感 知 它 并 做 出 适当 的 决定 。 图 中 有 两 组 箭 
头 ， 从 左 到 右 的 箭头 表示 携带 信息 的 信号 通过 系统 锅 前 传输 ， 从 右 到 左 的 箭头 表示 系统 中 的 反 
馈 。 感 受 器 把 来 自 人 体 或 外 界 环 境 的 刺激 转换 成 电 冲 击 ， 对 神经 网 络 (大 脑 ) 传送 信息 。 神 经 
网 络 的 效应 器 会 将 神经 网 络 产生 的 电 冲 击 转换 为 可 识别 的 响应 从 而 作为 系统 的 输出 。 


EC 


图 1 神经 系统 的 框图 


在 Ramon y Cajdl (1911) 的 开创 性 工作 中 ， 引 和 人 神经 元 作为 人 脑 结构 成 分 的 思想 ， 从 而 
使 得 人 们 理解 人 脑 的 努力 变 得 简单 多 了 。 通 常 ， 神 经 元 比 硅 逻 辑 门 要 慢 5 到 6 个 数量 级 ; EE 
辑 门 中 的 事件 发 生 在 纳 秒 级 ， 而 在 神经 中 的 事件 发 生 在 毫秒 级 。 但 是 人 脑 是 由 运行 速度 相对 较 
慢 的 神经 元 所 构成 的 ， 神 经 元 〈 神 经 细胞 ) 的 数目 非常 惊人 ， 而 且 它 们 之 间 具 有 大 量 的 互 连 。 
据 估 计 人 的 大 脑 皮 层 中 有 大 约 100 亿 个 神经 元 和 大 约 60 万 亿 个 突 触 或 连接 (Shepherd and 
Koch，1990)。 这 些 数 据说 明 大 脑 拥 有 非常 高 效 的 结构 。 具 体 来 说 ， 脑 的 能 量 效率 为 每 秒 每 个 
操作 大 约 为 10 焦耳 ， 而 今天 所 用 的 最 好 计算 机 的 相应 值 则 远 远大 于 人 脑 。 

突 触 〈synapse) 或 称 之 为 神经 末梢 (nerve ending)， 是 调节 神经 元 之 间 相 互 作用 的 基本 
结构 和 功能 单位 。 最 普通 的 一 类 突 触 是 化 学 突 触 ， 它 是 这 样 运行 的 ， 前 突 触 过 程 释放 发 送 器 物 
R, 扩散 到 神经 元 之 间 的 突 触 连接 ， 然 后 作用 于 后 突 触 过 程 。 这 样 突 触 就 完成 了 突 触 前 端的 电 
信号 向 化 学 信号 的 转换 ， 然 后 转换 回 突 触 后 端 电 信号 (Shepherd and Koch，1990)。 用 电学 术 
语 来 说 ， 这 样 的 元 素 称 为 非 互 北 的 两 端口 设备 。 在 传统 的 神经 组 织 描述 中 ， 仅 假设 突 触 是 一 个 
简单 的 连接 ， 能 施加 兴奋 或 抑制 ， 但 不 同时 作用 在 接受 神经 元 。 

我 们 曾 提 到 过 ， 可 塑性 允许 进化 神经 系统 以 适应 周边 环境 (Eggermont,，1990; Church- 
land and Sejnowski，1992)。 在 成 年 人 的 大 脑 中 ， 可 塑性 可 以 解释 两 个 机 能 : 创建 神经 元 间 的 


刺激 响应 
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新 连接 以 及 修改 已 有 的 连接 。 轴 突 〈 即 传导 线路 ) 和 树 突 《〈 即 接受 区 域 ) 组 成 两 种 细胞 长 纤 
维 ， 它们 在 形态 上 互相 区 别 。 轴 突 有 光滑 的 表面 、 较 少 的 分 支 、 比 较 长 ， 而 树 突 正 相 反 (之 所 
以 这 样 称呼 是 因为 它 和 树 相 似 )， 它 有 不 规则 的 表面 和 更 多 的 分 支 (Freeman，1975)。 脑 中 的 
不 同 部 分 有 很 多 种 形状 和 大 小 不 同 的 神经 元 。 图 2 是 一 种 锥 形 细胞 ， 它 在 大 脑 皮 层 中 最 常见 。 
与 其 他 许多 神经 元 一 样 ， 它 从 树 突 刺 接收 大 部 分 输入 信号 ; 可 以 从 图 2 中 看 到 树 突 片 段 的 细节 。 
锥 形 细胞 可 以 有 一 万 个 或 更 多 的 突 触 与 其 他 细胞 连接 ， 它 可 以 投射 到 数 以 千 计 的 目标 细胞 。 


2 


} 突 触 输入 








HRR 4 l 
树 突 片断 
~ 
和 细胞 体 
了 bana 
轴 突 
Fe 
图 2 锥 形 细胞 


大 多 数 神经 元 把 它们 的 输出 转化 成 一 系列 简短 的 电压 脉冲 编码 。 这 些 脉冲 ， 一 般 称 为 动作 
电位 或 尖峰 :， 产 生 于 神经 元 细胞 体 或 其 附近 并 以 恒定 的 电压 和 振幅 穿越 个 体 神 经 元 。 使 用 神 
经 元 间 的 动作 电位 通信 是 由 轴 突 的 物理 性 质 决 定 的 。 轴 罕 很 长 很 细 ， 有 很 高 的 电阻 和 非常 大 的 
电容 ， 这 两 者 分 布 于 轴 突 中 。 因 此 可 以 用 RC 传输 线路 来 建 模 ， 用 “电缆 方程 ”这 个 术语 来 描 
述 轴 突 中 的 信和 号 传播 。 对 传播 机 制 的 分 析 揽 示 了 电压 在 传输 中 随 距离 时 指数 衰减 ， 在 到 达 男 一 
端 时 会 变 得 很 小 。 动 作 电位 提供 了 克服 这 个 问题 的 方法 (Anderson，1995)。 

在 人 脑 中 ， 有 小 规模 和 大 规模 解剖 组 织 之 分 ， 在 底层 和 高 层 会 发 生 不 同 的 机 能 。 图 3 显示 
了 脑 组 织 各 种 级 别 交织 的 层次 结构 ， 这 已 经 在 广泛 的 关于 脑 局 部 区 域 的 分 析 工 作 中 显现 出 来 
(Shepherd and Koch, 1990; Churchland and Sejnowski, 1992), 突 触 表示 最 基本 的 层次 ,其 
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活动 依赖 于 分 子 和 离子 。 其 后 的 层次 有 神经 微 电 路 、 树 突 树 以 及 神经 元 。 神 经 微 电 路 指 突 触 集 
成 ， 组织 成 可 以 产生 所 需 的 功能 操作 的 连接 模式 。 它 就 像 一 个 由 晶 
体 管 集成 的 硅 片 ， 最 小 的 尺寸 用 微米 Cum) 度量 ， 最 快 的 操作 速 
ASE (mm) 度量 。 神 经 微 电 路 被 组 织 成 属于 神经 元 个 体 的 树 
突 树 的 树 突 子 单元 。 整 个 神经 元 大 约 为 100pm KA), BEJLERI 
突 子 单元 。 局 部 电路 (KA Imm 大 小 ) 处 在 其 次 的 复杂 性 水 平 ， 
由 具有 相似 或 不 同性 质 的 神经 元 组 成 ， 这 些 神经 元 集成 完成 脑 局 部 
区 域 的 特征 操作 。 接 下 来 是 区 域 间 电 路 ， 由 通路 、 柱 子 和 局 部 解剖 
图 组 成 ， 牵 涉 脑 中 不 同 部 分 的 多 个 区 域 。 

局 部 解剖 图 (topographic map) 被 组 织 成 用 来 响应 输入 的 感知 
信息 。 它 们 经 常 被 组 织 成 片 束 状 ， 如 同 在 上 丘 中 一 样 。 上 丘 中 视 
觉 、 听 觉 和 人 体 触 觉 区 以 层 邻接 的 方式 放置 ， 使 得 空间 中 相应 点 的 
刺激 处 于 各 层 的 下 面 或 上 面 。 图 4 表示 由 Brodmann (Brodal, 
1981) 做 出 的 大 脑 皮层 的 细胞 结构 图 。 图 中 清晰 表明 不 同 的 感知 输 
入 《运动 、 和 触觉、 视觉 、 听 觉 等 ) 被 有 序 地 了 映射 到 大 脑 皮层 的 相应 
位 置 。 在 复杂 性 的 最 后 一 级 ， 局 部 解剖 图 和 其 他 的 区 域 间 电路 成 为 
中 央 神 经 系统 传递 特定 行为 的 媒介 。 

认识 到 在 这 里 描绘 的 结构 分 层 组 织 是 大 脑 的 独 有 特征 非常 重 图 3 大 脑 的 分 层 结构 组 织 
要 。 我 们 在 数字 计算 机 中 找 不 到 这 种 结构 ， 在 人 工 神经 网 络 中 也 无 
法 近似 地 重 构 它 们 。 但 是 ， 我 们 仍 在 向 图 3 中 描述 的 类 似 的 分 级 计算 层 状 结构 缓慢 推进 。 用 以 
构造 神经 网 络 的 人 工 神 经 元 和 人 脑 中 的 神经 元 相 比 确实 比较 初级 ， 我 们 目前 能 设计 的 网 络 和 人 
脑 中 初级 的 局 部 电路 和 区 域 间 电 路 相当 ， 但是， 真正 令 人 满意 的 是 我 们 已 经 在 许多 前 沿 有 了 显 
著 进 步 。 以 神经 生物 类 比 作 为 灵感 的 源泉 ， 加 上 我 们 具有 的 理论 和 技术 工具 等 财富 ， 逐 步 地， 
我 们 对 人 工 神经 网 络 及 其 应 用 的 理解 一 定 会 更 加 深入 和 宽广 。 


中 枢 神经 系统 








图 4 大 脑 皮层 细胞 结构 图 。 不 同 区 域 由 它们 的 层 厚度 及 其 内 部 细胞 类 型 标示 。 一 些 最 重 
要 的 感知 区 域 如 下 。 运 动 皮 层 : 运动 区 ， 区 域 4; 前 运动 区 ， 区 域 6; 前 端 眼球 区 ， 
区 域 8。 人 体 触觉 皮层 : 区 域 3，1，2。 视 觉 皮 层 ， 区 域 17，18，19。 听 觉 皮层 : 区 
域 41，42 (摘自 A. Brodal，1981; 经 Oxford University Press 许可 ) 


0.3 神经 元 模型 


神经 元 是 神经 网 络 操作 的 基本 信息 处 理 单位 。 图 5 给 出 了 神经 元 的 模型 ， 它 是 后 续 章 节 中 将 
要 探讨 的 设计 〈 人 工 ) 神经 网 络 大 家 庭 的 基础 。 我 们 在 这 里 给 出 神经 元 模型 的 三 种 基本 元 素 : 

1. 突 触 或 连接 链 集 ， 每 一 个 都 由 其 权 值 或 者 强度 作为 特征 。 具 体 来 说 ， 在 连 到 神经 元 的 突 
fh 上 的 输入 信号 2; 被 乘 以 的 突 触 权 值 ws 。 注 意 突 触 权 值 zw 下 标的 写法 很 重要 。 第 一 个 下 标 
指正 在 研究 的 这 个 神经 元 ， 第 二 个 下 标 指 权 值 所 在 的 突 触 的 输入 端 。 和 人 脑 中 的 突 触 不 一 样 ， 人 
工 神经 元 的 突 触 权 值 有 一 个 范围 ， 可 以 取 正 值 也 可 以 取 负 值 。 

2， 加 法 器 ， 用 于 求 输入 信和 号 被 神经 元 的 相应 突 触 加 权 的 和 。 这 个 操作 构成 一 个 线性 组 合 器 。 

3. 激活 函数 ， 用 来 限制 神经 元 输出 振幅 。 由 于 它 将 输出 信号 压制 〈 限 制 ) 到 允许 范围 之 
内 的 一 定 值 ， 故 而 激活 函数 也 称 为 压制 函数 。 通 常 ， 一 个 神经 元 输出 的 正常 幅度 范围 可 写成 单 
位 闭 区 间 [0，1] 或 者 另 一 种 区 间 [一 1， 十 1j。 








突 触 权 值 


图 5 神经 元 的 非 线 性 模型 ， 标 记 为 第 个 神经 元 


图 5 的 神经 元 模型 也 包括 一 个 外 部 偏 置 Cias), A beo WE be 的 作用 是 根据 其 为 正 或 
为 负 ， 相 应 地 增加 或 降低 激活 函数 的 网 络 输入 。 
用 数学 术语 来 表示 ， 我 们 可 以 用 如 下 一 对 方程 描述 图 5 中 的 神经 元 : 


u = J wer; (1) 
j=l 


ye = pla bi) (2) 

其 中 XL, rT2 9 sIm 是 输入 信号 ， Wel Waz 9 9 Wim 是 神经 

元 k 的 突 触 权 值 ， 《没有 在 图 5 中 标 出 ) 是 输入 信号 

的 线性 组 合 器 的 输出 ，bi 为 偏 置 ， 激 活 函 数 为 p(，)， 

y 是 神经 元 输出 信和 号。 偏 置 & 的 作用 是 对 图 5 模型 中 的 

线性 组 合 器 的 输出 us VE HH RH (affine transforma- 
tion), WE ita: 








Up = Ue bs (3) 

特别 地 ， 根 据 偏 置 久 取 正 或 取 负 ， 神 经 元 & 的 诱导 

局 部 域 Cinduced local field) 或 激活 电位 (activation po- 

tential) v 和 线性 组 合 器 输出 u 的 关系 如 图 6 所 示 。 以 

后 我 们 将 把 “诱导 局 部 域 ” 和 “激活 电位 ”这 两 个 术语 

交替 使 用 。 注意 到 由 于 这 个 仿 射 变换 的 作用 ， Uk Ej u 的 图 6 偏 置 产生 的 仿 射 变换 ， 注意 
图 形 不 再 经 过 原点 。 us =0 时 v = br 


线性 组 合 
器 输出 
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ME b 是 人 工 神经 元 有 的 外 部 参数 。 我 们 可 以 像 在 式 (2) 中 一 样 考虑 它 。 同 样 ， 可 以 结合 
式 (1) 和 式 (3) 得 到 如 下 公式 : 


Up = >) wz (4) 
ve = Plu) (5) 
在 式 (4) 中 ,我 们 加 上 一 个 新 的 突 触 ， 其 输入 是 
Zo =+ 1 (6) 
权 值 是 
Wyo = b, (7) 


因此 得 到 了 神经 元 的 新 模型 ， 如 图 7 所 示 。 在 这 个 图 中 ， 偏 置 起 两 种 作用 : C) 添加 新 的 固 

定 输入 十 1; (2) 添加 新 的 等 于 仿 置 b 的 突 触 权 值 。 虽 然 形式 上 图 5 和 图 7 的 模型 不 相同 ， 但 

在 数学 上 它们 是 等 价 的 。 、 
固定 输入 kw=+l o 


Uy =Oy 











突 触 权 值 
(包含 偏 置 ) 


图 7 神经 元 的 男 一 个 非 线 性 模型 ，wi 代 替 了 偏 置 b 


激活 函数 的 类 型 
激活 函数 ， 记 为 gp(v)， 通 过 诱导 局 部 域 v 定义 神经 元 输出 。 这 里 我 们 给 出 两 种 基本 的 激 
75 RA: 
1. 阅 值 函数 。 这 种 激活 函数 如 图 8a 所 示 ， 可 写 为 : 
1 wRuvlSo 
giv) = to 如 果 岂 二 0 
在 工程 文献 中 ， 这 种 函数 一 般 称 为 Heaviside 函数 。 相 应 地 ， 在 神经 元 & 上 使 用 这 种 闭 值 函数 ， 
其 输出 可 表示 为 


(8) 


1 wR u >o 
0 如 果 w <0 


ye 一 | (9) 


其 中 ww 是 神经 元 的 诱导 局 部 域 ， 即 
U = Sl wy, +b, (10) 


在 神经 计算 中 ， 这 样 的 神经 元 在 文献 中 称 为 McCulloch-Pitts 模型 ， 以 纪念 McCulloch and 
Pitts (1943) 的 开拓 性 工作 。 在 模型 中 ， 如 果 神 经 元 的 诱导 局 部 域 非 负 ， 则 输出 为 1， 和 否则 为 
0。 这 描述 了 McCulloch-Pitts PAI hy A a HH HAF Call-or-none property), 

2. sigmoid AX. 此 函数 的 图 形 是 “S” 形 的 ， 在 构造 人 工 神经 网 络 中 是 最 常用 的 激活 函 
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数 。 它 是 严格 的 递增 函数 ， 在 线性 和 非 线性 行为 之 间 显 现 出 较 好 的 平衡 。sigmoid 函数 的 一 个 
例子 是 logistic 函数 *， 定 义 如 下 : 





g(v) = (11) 


1 
1 + exp(— av) 
其 中 a 是 sigmoid 函数 的 倾斜 参数 。 修 改 参数 a 就 可 以 改变 倾斜 程度 ， 如 图 8b 所 示 。 实 际 
上 ， 在 原点 的 斜 度 等 于 a/4。 在 极限 情况 下 ， 倾 斜 参数 趋 于 无 穷 ，sigmoid PMT fe AY 
值 函 数 。 阔 值 函 数 仅 取 值 0 或 1， 而 sigmoid 的 值 域 是 0 到 1 的 连续 区 间 。 还 要 注意 到 sig- 
moid 函数 是 可 微分 的 ， 而 阐 值 函数 不 是 。( 如 第 4 章 所 述 ， 可 微 性 是 神经 网 络 理论 的 一 个 重要 
特征 。) 
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图 8 a) MARR: bO 具有 不 同 倾斜 参数 a 的 sigmoid 函数 


在 式 (8) 、(11) 中 定义 的 激活 函数 的 值 域 是 0 到 十 1。 有 时 也 期 望 激活 函数 的 值 域 是 一 1 到 
十 1， 这 种 情况 下 激活 函数 是 诱导 局 部 域 的 奇 函数 。 具 体 来 说 ， 益 值 函数 (8) 的 另 一 种 形式 是 


1 to Rv > 0 
gv) | wR v= 0 (12) 
—1 wmRuvu<0 
通常 称 之 为 signum BK, HTH sigmoid 函数 相对 应 ， 我 们 可 以 使 用 双 曲 正切 函数 
glv) = tanh(v) (13) 


如 式 (13) 所 示 ， 它 允许 sigmoid 型 的 激活 函数 取 负 值 ， 这 有 时 候 会 产生 比 式 (11) 的 logistic K 
数 更 好 的 实际 利益 。 
神经 元 的 统计 模型 
图 7 的 神经 元 模型 是 确定 性 的 ， 它 的 输入 输出 行为 对 所 有 的 输入 精确 定义 。 但 在 一 些 神经 
网 络 的 应 用 中 ， 基 于 随机 神经 模型 的 分 析 更 符合 需要 。 使 用 一 些 解析 人 处理 方法 ， McCulloch- 
Pitts 模型 的 激活 函数 用 概率 分 布 来 实现 。 具 体 来 说 ， 一 个 神经 元 允许 有 两 个 可 能 的 状态 值 十 1 
或 一 1。 一 个 神经 元 激发 〈 即 它 的 状态 开关 从 “ 关 ” 到 “ 开 ”) 是 随机 决定 的 。 用 x 表示 神经 元 
的 状态 ，P(v) 表 示 激 发 的 概率 ， 其 中 v 是 诱导 局 部 域 。 我 们 可 以 设 定 
十 1 概率 为 已 Cu) 
r= (14) 
一 ] 概率 为 1 一 已 (v) 
一 个 标准 选择 是 sigmoid 型 的 函数 : 


Po) = 1 


1 + exp(— v/T) 

其 中 工 是 伪 温 度 (pseudotemperature)， 用 来 控制 激发 中 的 噪声 水 平 即 不 确定 性 (Little, 
1974)。 但 是 ， 不 管 神经 网 络 是 生物 的 或 人 工 的 ，T 都 不 是 神经 网 络 的 物理 温度 ， 认 识 到 这 一 
点 很 重要 。 进 一 步 ， 正 如 所 说 明 的 一 样 ， 我 们 仅仅 将 荆 看 作 是 一 个 控制 表示 突 触 噪声 效果 的 
热 波动 参数 。 注 意 当 工 趋 于 0 时 ， 式 (14) 和 式 (15) 所 描述 的 随机 神经 元 就 变 为 无 噪声 〈 即 确 


(18) 
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定性 ) 形式 ， 也 就 是 McCulloch-Pitts 模型 。 
0.4 被 看 作 有 向 图 的 神经 网 络 


图 5 或 图 7 的 方 框图 提供 了 构成 人 工 神 经 元 模型 各 个 要 素 的 功能 描述 。 我 们 可 以 在 不 牺牲 
模型 功能 细节 的 条 件 下 用 信号 流 图 来 简化 模型 外 观 。Mason (1953, 1956) 开发 了 线性 网 络 的 
一 套 信 号 流 图 ， 并 带 有 定义 好 的 规则 。 神 经 元 的 非 线性 限制 了 它们 在 神经 网 络 中 的 应 用 范围 。 
不 过 ， 信 号 流 图 在 描述 神经 网 络 信号 流 时 为 我 们 提供 了 简洁 的 方法 ,我 们 在 本 节 进 行 讨论 。 

信号 流 图 是 一 个 由 在 一 些 特定 的 称 为 节点 的 点 之 间 相连 的 有 向 连接 (分 支 ) 组 成 的 网 络 。 
一 个 典型 的 节点 7 有 一 个 相应 的 节点 信号 x;。 一 个 典型 的 有 疝 连 接 从 节点 7 了 了 开始， 到 上 节点 结 
束 。 它 有 相应 的 传递 函数 或 传递 系数 以 确定 节点 & 的 信号 ys 依赖 于 节点 7 的 信号 zi 的 方式 。 
图 形 中 各 部 分 的 信号 流动 遵循 三 条 基本 规则 。 

规则 1 信号 仅仅 沿 着 定义 好 的 箭头 方向 在 连接 上 流动 。 

两 种 不 同类 型 的 连接 可 以 区 别 开 来 : 

。 突 触 连接 ， 它 的 行为 由 线性 输入 输出 关系 决定 。 具 体 来 说 ， 如 图 9a 所 示 ， 节 点 信号 ya 

由 节点 信号 x; 乘 以 突 触 权 值 wx 产生 。 

。 激活 连接 ， 它 的 行为 一 般 由 非 线 性 输入 输出 关系 决定 。 如 图 9b 所 示 ， 其 中 oC + AFF 

线性 激活 函数 。 

规则 2 节点 信号 等 于 经 由 连接 进入 的 有 关节 点 的 所 有 信号 的 代数 和 。 

这 个 规则 通过 如 图 9c 所 示 的 突 触 会 聚 或 扇 人 的 情形 来 说 明 。 

规则 3 节点 信号 洛 每 个 外 向 连接 向 外 传递 ， 此 时 传递 的 信号 完全 独立 于 外 向 连接 的 传递 函数 。 

第 三 个 规则 通过 如 图 9d 所 示 的 突 触 散 发 或 扇 出 的 情形 来 说 明 。 

比如 ， 利 用 这 些 规则 ， 我 们 可 以 制作 出 对 应 于 图 7 的 信号 流 图 10 来 作为 神经 元 模型 。 可 
以 看 出 ,图 10 要 比 图 7 的 形式 更 简单 ， 但 是 它 包含 了 后 者 描绘 的 所 有 功能 细节 。 注 意 ， 在 两 
个 图 中 ,输入 zo 二 十 1 和 相关 的 罕 触 权 值 wi 二 5;， HP b 是 神经 元 的 偏 置 。 
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图 9 FAR Pai (ef Svat Ba AY ks BD ad as 图 10 神经 元 的 信号 流 图 


确实 ， 根 据 图 10 的 信号 流 图 所 显示 的 神经 元 模型 ， 我 们 可 以 给 出 一 个 神经 网 络 的 下 列 数 
FEL: 
神经 网 络 是 由 具有 互相 连接 的 突 触 节点 和 激活 连接 构成 的 有 向 图 ， 具 有 4 个 主要 特征 : 
1. 每 个 神经 元 可 表示 为 一 组 线性 的 突 触 连接 ， 一 个 外 部 应 用 偏 置 ， 以 及 可 能 的 非 线性 激 
活 连接 。 偏 置 由 和 一 个 固定 为 十 1 的 输入 连接 的 突 触 连接 表示 。 
2. 神经 元 的 突 触 连接 给 它们 相应 的 输入 信号 加 权 。 
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3. 输入 信号 的 加 权 和 构成 该 神经 元 的 诱导 局 部 域 。 
4. 激活 连接 压制 神经 元 的 诱导 局 部 域 产 生 输 出 。 


一 个 如 此 定义 的 有 向 图 是 完全 的 ， 这 是 指 它 不 仅仅 描述 了 神经 元 向 的 信号 流 ， 也 描述 了 每 个 
神经 元 内 部 的 信号 流 。 但 是 当 我 们 的 注意 集中 在 神经 元 之 间 的 信号 流 上 时 ， 可 以 使 用 这 个 图 的 一 
个 简略 形式 ， 它 省 略 神经 元 内 部 的 信号 流 的 细节 。 这 样 的 有 向 图 是 局 部 完全 的 ， 它 的 特征 是 : 

1. 源 节点 向 图 提供 输入 信和 号。 

2. 每 个 神经 元 由 称 为 计算 节点 的 单个 节点 表示 。 

3. 联结 图 中 源 节 点 和 计算 节点 之 间 的 通信 连接 没有 权 值 ， 它 们 仅仅 提供 图 中 信号 流 的 方向 。 
这 样 定义 的 一 个 局 部 完全 的 有 向 图 就 是 所 谓 的 神经 网 络 结构 图 ， 描 述 神经 网 络 的 布局 。 图 11 
给 出 了 具有 m 个 源 节点 和 一 个 用 于 偏 置 的 、 固 定 为 十 1 的 节点 的 单一 神经 元 的 简单 情况 。 注 意 
表示 该 神经 元 的 计算 节点 以 阴影 显示 ， 而 源 节点 用 小 方块 显 
示 。 在 本 书 中 ， 我 们 都 遵循 这 里 的 表示 方法 。 在 0. 6 节 有 更 精 
巧 的 布局 结构 图 的 例子 。 

总 的 来 说 ， 我 们 有 三 种 神经 网 络 的 图 形 表示 方法 : 

。 方 框图 ， 提 供 网 络 的 功能 描述 ; 

。 结构 图 ， 描 述 网 络 布 局 ; 

。 信和 号 流 图 ， 提 供 网 络 中 完全 的 信号 流 描述 。 


0.5 反馈 


当 系 统 中 一 个 元 素 的 输出 能 够 部 分 地 影响 作用 于 该 元 素 的 输入 ， 从 而 造成 一 个 或 多 个 围绕 
该 系统 进行 信号 传输 的 封闭 路 径 时 ， 我 们 说 动态 系统 中 存在 着 反馈 〈feedback)。 实 际 上 ， 反 
馈 存 在 于 所 有 动物 神经 系统 的 几乎 每 一 部 分 中 (Freeman, xm A 

1975) 。 并 且 ， 在 一 类 特殊 的 神经 网 络 -一 一 递归 网 络 的 研究 中 A O eye 

扮演 着 重要 角色 。 图 12 表示 单 环 反馈 系统 的 信号 流 图 ， 输 入 “ 

信和 号 zj (wn)、 内 部 信号 zn) 和 输出 信号 ye O) 是 离散 时 间 变 量 

的 函数 。 这 个 系统 被 假定 为 线性 的 ， 由 “ 算 子 ”A 表示 的 前 图 12 单 环 反馈 系统 的 信号 流 图 

向 通道 和 “ 算 子 ”B 表示 的 反馈 通道 组 成 。 特 别 地 ， 前 向 通道 的 输出 通过 反馈 通道 来 部 分 地 影 
响 自己 的 输出 。 由 图 12 可 以 很 容易 得 到 这 样 的 输入 输出 关系 : 








图 11 神经 元 的 结构 图 











y(n) = Alx; (n)] (16) 
x(n) = x;(n) + Bly, Cm) J (17) 

其 中 方 括号 是 为 了 强调 A 和 B 是 扮演 着 算 子 的 角色 。 在 式 (16) 和 式 (17) 中 消去 zi), E 
yi = AS] (18) 


我 们 把 A/(1 一 AB) 称 为 系统 的 闭环 算 子 ，AB 称 为 开 环 算 子 。 通 常 ， 开 环 算 子 没有 交换 性 ， 即 
BA 尖 AB。 
例如 ， 考 虑 图 13a 中 的 单 环 反馈 系统 。A 是 一 个 固定 的 权 值 w，B 是 单位 时 间 延 迟 算 子 
z-: ， 其 输出 是 输入 延迟 一 个 时 间 单 位 的 结果 。 我 们 可 以 将 这 个 系统 的 闭环 算 子 表示 为 
A w 
1 一 AB 1—uz” 
将 (1 一 wz-')-! 二 项 式 展开 ， 可 以 把 系统 的 闭环 算 子 重 写 为 


A Se 
AB ww (19) 


= wl— we!) 
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因此 ， 将 式 (19) 代 入 式 (18)， 我 们 有 


yn) = wwe Le] (20) 
其 中 ， 再 次 用 方 括号 强调 * :是 算 子 的 事实 。 特 别 地 ， 由 z !' 的 定义 我 们 有 
z [zx;(n)] = zx;(n— i) (21) 


其 中 zx;(n 一 站 是 输入 信和 号 延迟 7 个 时 间 单 位 的 样本 。 因 此 ， 可 以 用 输入 zj (n) 现 在 和 过 去 所 有 
样本 的 无 限 加 权 和 来 表示 输出 yen): 














y(n) = X wt r (n1) (22) 
i=0 
zc! x(n-1) x! x 
xn) w xn) > > > e > 
x(n) oO- > > ym) . 
和 > ned > > o y(n) 
a) b) 


图 13 a) 一 阶 无 限 冲击 响应 (IIR〉 滤 波 器 的 信号 流 图 ; b 图 中 a) 部 分 的 前 馈 近 似 ， 通 过 切断 式 (20) 得 到 


我 们 现在 清楚 地 看 到 由 图 13 的 信号 流 图 表示 的 反馈 系统 的 动态 行为 是 由 权 值 w 控制 的 。 特 别 
是 ， 我 们 可 以 识别 两 种 特殊 情况 : 

1. |w| 二 1， 此 时 输出 信号 ys (nn) 以 指数 收敛 ; 也 就 是 说 ， 系 统 是 稳定 的 。 如 图 14a 对 一 个 
TE w 值 的 情况 所 示 。 

2. |w| 宇 1， 此 时 输出 信号 » ORR: 也 就 是 说 ， 系 统 是 不 稳定 的 。 图 14b 是 |w| 二 1 的 
情况 ， 发 散 是 线性 的 ; 图 14c Æw >l 的 情况 ， 发 散 是 指数 的 。 

稳定 性 是 闭环 反馈 系统 研究 中 的 突出 特征 。 











ya) yn) o yln) p G 
wel e -77 w= pE - w>l 
wm (0) 9 “TT wx (0) = 
| 人 a 
0 t 2 3 4 ” 0 l 2 3 4 n 0 1 2 3 4 
a) b) c) 


图 14 图 13 HATA w ZRA EREA: a) 稳定 ; b) 线性 发 散 ; c) 指数 发 散 


Jw | <1 的 情况 对 应 于 具有 无 限 记忆 的 系统 ， 这 是 指 系统 的 输出 依赖 于 无 限 过 去 的 输入 样 
本 。 并 且 ， 过 去 的 样本 对 记忆 的 影响 是 随时 间 半 呈 指 数 衰减 的 。 假 设 对 任意 的 寡 N，|w| 相 对 
于 数 1 足够 小 以 保证 对 任何 实际 目的 来 说 wy" 是 可 以 忽略 的 。 在 这 种 情况 下 ， 可 以 通过 下 面 的 
ARAKEA h ye: 


N—1 


y(n) ~ 2 ix, (n— D = wr, (n) + wrn — 1) iw zn m2) +6 ‘+ wzj(n—-N+D 


相应 地 ， 可 以 利用 图 13b 所 示 的 前 馈 信号 流 图 作为 图 13a 的 反馈 信号 流 图 的 逼近 。 在 实现 这 样 
的 逼近 的 时 候 ， 我 们 称 为 反馈 系统 的 “伸展 ”。 然 而 ， 必 须 说 明 的 是 ， 仅 在 反馈 系统 稳定 的 时 
候 伟 展 操作 才 有 实际 价值 。 

由 于 用 于 构造 神经 网 络 的 处 理 单元 通常 是 非 线 性 的 ， 因 此 它 所 涉及 的 反馈 应 用 的 动态 行为 


分 析 都 很 复杂 。 这 一 点 在 本 书后 面 会 给 出 进一步 分 析 。 
0.6 网 络 结构 


神经 网 络 中 神经 元 的 构造 方式 与 用 于 训练 网 络 的 学 习 算 法 有 着 紧密 的 联系 。 因 此 ， 我 们 可 
以 说 ， 用 于 神经 网 络 设计 的 学 习 算法 (规则) 是 被 构造 的 。 我 们 将 在 0. 8 节 讨 论 学 习 算法 的 分 
类 。 这 一 节 我 们 专注 于 网 络 的 体系 结构 。 

一 般 说 来 ， 我 们 可 以 区 分 三 种 基本 不 同 的 网 络 结构 。 

单 层 前 馈 网 络 

在 分 层 网 络 中 ， 神 经 元 以 层 的 形式 组 织 。 在 最 简单 的 分 层 网 络 中 ， 源 节点 构成 输入 层 ， 直 
接 投 射 到 神经 元 输出 层 (计算 节 点 ) 上 ， 反 之 则 不 然 。 也 就 是 说 ， 这 个 网 络 是 严格 前 馈 的 。 如 
图 15 所 示 ， 输 出 输入 层 各 有 4 个 节点 。 这 样 的 网 络 称 为 单 层 网 。 单 层 指 的 是 计算 节点 (神经 
元 ) 输出 层 。 我 们 不 把 源 节点 的 输入 层 计 算 在 内 ， 因 为 在 这 一 层 没有 进行 计算 。 

多 层 前 馈 网 络 

前 馈 神 经 网 络 的 第 二 种 网 络 有 一 层 或 多 层 隐藏 展 ， 相 应 的 计算 节点 称 为 隐藏 神经 元 或 隐藏 
单元 。 隐 藏 是 指 神经 网 络 的 这 一 部 分 无 论 从 网 络 的 输入 端 或 者 输出 端 都 不 能 直接 看 到 。 隐 藏 神 
经 元 的 功能 是 以 某 种 有 用 的 方式 介 人 外 部 输入 和 网 络 输出 之 中 。 通 过 增加 一 个 或 多 个 隐藏 层 ， 
网 络 可 以 根据 其 输入 引出 高 阶 统 计 特 性 。 即 使 网 络 为 局 部 连接 ， 由 于 额外 的 突 触 连接 和 额外 的 
神经 交互 作用 ， 也 可 以 使 网 络 在 不 十 分 严格 的 意义 下 获得 一 个 全 局 关系 (Churchland and Se- 
jnowski, 1992), 

网 络 输入 层 的 源 节点 提供 激活 模式 的 元 素 〈 输 入 向 量 )， 组 成 第 二 层 〈 第 一 隐藏 层 ) 神经 
元 〈 计 算 节 点 ) 的 输入 信号 。 第 二 层 的 输出 信号 作为 第 三 层 输 入 ， 这 样 一 直 传 递 下 去 。 通 常 ， 
每 一 层 的 输入 都 是 上 一 层 的 输出 ， 最 后 的 输出 层 给 出 相对 于 源 节 点 的 激活 模式 的 网 络 输出 。 结 
构图 如 图 16 所 示 ， 图 中 只 有 一 个 隐藏 层 以 简化 神经 网 络 的 布局 。 这 是 一 个 10 一 4 一 2 网 络 ， 其 
中 有 10 个 源 节点 ，4 个 隐藏 神经 元 ，2 个 输出 神经 元 。 作 为 另外 一 个 例子 ， 具有 m 个 源 节点 
的 前 馈 网 络 ， 第 一 个 隐藏 层 有 hh 个 神经 元 ， 第 二 个 隐藏 层 有 hs 个 神经 元 ， 输 出 层 有 9 个 神经 
元 ， 可 以 称 为 mh hq 网 络 。 

















源 节点 神经 元 源 节 点 隐藏 神 神经 元 
输入 层 输出 层 输入 层 经 元 层 输出 层 


图 1S 单 层 神经 元 前 馈 网 络 图 16 具有 一 个 隐藏 层 和 输出 屋 的 金 连 接 前 馈 网 络 
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图 16 的 网 络 也 可 以 称 为 完全 连接 网 络 ， 这 是 指 相 邻 层 的 任意 一 对 节点 都 有 连接 。 如 果 不 
是 这 样 ， 我 们 称 之 为 部 分 连接 网 络 。 
递归 网 络 

递归 网 络 和 前 馈 网 络 的 区 别 在 于 它 至 少 有 一 个 反馈 环 。 如 图 17 所 示 ， 递 归 网 络 可 以 由 单 
层 神经 元 组 成 ， 单 层 网 络 的 每 一 个 神经 元 的 输出 都 反馈 到 所 有 其 他 神经 元 的 输入 中 。 这 个 图 中 
描绘 的 结构 没有 自 反 馈 环 ; 自 反馈 环 表示 神经 元 的 输出 反馈 到 它 自 己 的 输入 上 。 图 17 也 没有 

图 18 所 示 是 带 有 隐藏 神经 元 的 另 一 类 递归 网 络 ， 反 馈 连 接 的 起 点 包括 隐藏 层 神经 元 和 输 
出 神经 元 。 
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图 17 无 自 反馈 环 和 隐藏 神经 元 的 递归 网 络 图 18 有 隐藏 神经 元 的 递归 网 络 

无 论 是 在 图 17 或 图 18 的 递归 结构 中 ， 反 馈 环 的 存在 对 网 络 的 学 习 能 力 和 它 的 性 能 都 有 深 
刻 的 影响 。 并 且 ， 由 于 反馈 环 涉及 使 用 单位 时 间 延 迟 元 素 GOA xz ') 构成 的 特殊 分 支 ， 假 如 
神经 网 络 包 含 非 线性 单元 ， 将 导致 非 线性 的 动态 行为 。 ~ 
0.7 知识 表示 

0. 1 节 中 用 到 了 “知识 ”这 个 术语 ， 我 们 用 它 来 定义 神经 网 络 的 时 候 没 有 对 它 的 涵义 作 明 
确 的 表述 。 现 在 来 关注 这 一 点 ， 并 在 下 面 给 出 关于 知识 的 一 般 性 定义 (Fischler and Firschein, 
1987): 

知识 就 是 人 或 机 器 储存 起 来 以 备 使 用 的 信息 或 模型 ， 用 来 对 外 部 世界 作出 解释 、 预 测 和 适 
当 的 反应 。 
知识 表示 的 主要 特征 有 两 个 方面 : (1) 什么 信息 是 明确 表述 的 ; (2) 物理 上 信息 是 如 何 被 编码 
和 使 用 的 。 按 知识 表示 的 本 性 ， 它 是 目标 导向 的 。 在 “智能 ”机 器 的 现实 应 用 中 ， 可 以 说 好 的 
方案 取决 于 好 的 知识 表示 《Woods，1986)。 代 表 一 类 特殊 智能 机 器 的 神经 网 络 也 是 如 此 。 但 
是 ， 典 型 地 ， 从 输入 到 内 部 网 络 参数 的 可 能 表现 形式 是 高 度 多 样 性 的 ， 这 就 导致 基于 神经 网 络 
的 对 满意 解 的 求解 成 为 一 个 具有 挑战 性 的 设计 。 
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神经 网 络 的 一 个 主要 任务 是 学 习 它 所 依存 的 外 部 世界 〈 环 境 ) 模型 ， 并 且 保 持 该 模型 和 真 
实 世界 足够 兼容 ， 使 之 能 够 实现 感 兴趣 应 用 的 特定 目标 。 有 关 直 界 的 知识 由 两 类 信息 组 成 。 

L 已 知 世 界 的 状态 ， 由 “什么 是 ”事实 和 “什么 是 已 知道 的 ”事实 所 表示 : 这 种 形式 的 
知识 称 为 先 验 信 息 Cpriori information), 

2. 对 世界 的 观察 〈 测 量 ) ， 由 神经 网 络 中 被 设计 用 于 探测 环境 的 传感器 获得 。 一 般 说 来 ， 
这 些 观察 是 带 有 固有 噪声 的 ， 这 是 由 于 传感器 的 噪声 和 系统 的 不 完善 而 产生 的 误差 。 不 管 怎 
样 ， 这 样 得 到 的 观察 会 提供 一 个 信息 池 ， 从 中 提取 样 例 来 训练 神经 网 络 。 

样 例 可 以 是 有 标号 的 ， 也 可 以 是 无 标号 的 。 对 于 带 标 号 样 例 来 说 ， 每 个 样 例 的 输入 信号 有 
相应 的 与 之 配对 的 期 望 响应 〈 即 目标 输出 )。 另 一 方面 ， 无 标号 的 样 例 包括 输入 信号 自身 的 不 
同 实现 。 不 管 怎样 ， 一 组 样 例 ， 无 论 有 无 标号 ， 都 代表 了 神经 网 络 通过 训练 可 以 学 习 的 环境 知 
识 。 但 是 ， 要 说 明 的 是 ， 带 标号 样 例 的 采集 可 能 代价 较 高 ， 因 为 它们 需要 “教师 ”来 对 每 个 带 
标号 样 例 提 供需 要 的 响应 。 与 之 相反 ， 通 常 无 标号 样 例 数目 是 足够 的 ， 因 为 对 无 标号 样 例 来 说 
需要 教师 。 

一 组 由 输入 信号 和 相应 的 期 望 响 应 所 组 成 的 输入 输出 对 称 为 训练 数据 集 (set of training 
data) 或 简单 称 为 训练 样本 (training sample)。 为 了 说 明 怎 样 使 用 这 样 的 数据 集 ， 我 们 以 手写 
数字 识别 问题 为 例 。 在 这 个 问题 中 ， 输 入 信号 是 一 幅 景 白 图 像 ， 每 幅 图 像 代表 可 以 从 背景 中 明 
显 区 分 出 的 十 个 数字 之 一 。 期 望 的 响应 就 是 “确定 ”网 络 的 输入 信号 代表 哪个 数字 。 通 常 训 练 
样本 就 是 手写 体 数 字 的 大 量变 形 ， 这 代表 了 真实 世界 的 情形 。 有 了 这 些 样本 ， 可 以 用 如 下 的 办 
法 设计 神经 网 络 : 

。 为 神经 网 络 选择 一 个 合适 的 结构 ， 输 入 层 的 源 节 点 数 和 输入 图 像 的 像素 数 一 样 ， 而 输 

出 层 包含 10 个 神经 元 〈 每 个 数字 对 应 一 个 神经 元 ) 。 利 用 合适 的 算法 ， 以 样本 的 一 个 
子 集 来 训练 网 络 。 这 个 网 络 设计 阶段 称 为 学 习 。 

。 用 陌生 样本 来 测试 已 训练 网 络 的 识别 性 能 。 具 体 来 说 ， 呈 现 给 网 络 一 幅 输 入 图 像 时 并 
不 告诉 它 这 幅 图 像 属于 哪个 数字 。 网 络 的 性 能 就 用 网 络 报告 的 数字 类 别 和 输入 图 像 的 
实际 类 别 的 差异 来 衡量 。 网 络 运行 的 这 个 第 二 个 阶段 叫做 测试 ， 对 测试 模式 而 言 的 成 
功 性 叫做 泛 化 ， 这 是 借用 了 心理 学 的 术语 。 

这 里 神经 网 络 的 设计 与 传统 信息 处 理 对 应 部 分 〈 模 式 分 类 器 ) 的 设计 有 着 根本 的 差别 。 对 
后 一 种 情况 来 说 ， 首 先 我 们 通常 设计 一 个 观测 环境 的 数学 模型 ， 并 利用 真实 数据 来 验证 这 个 模 
型 ， 再 以 此 模型 为 基础 来 设计 。 相 反 ， 神 经 网 络 的 设计 直接 基于 实际 数据 ，“ 让 数据 自己 说 
话 ”。 人 因此 神经 网 络 不 但 提供 了 其 内 艇 于 环境 的 隐 含 模型 ， 也 实现 了 感 兴趣 的 信息 处 理 功能 。 

用 于 训练 神经 网 络 的 例子 可 以 由 正 倒 和 反例 组 成 。 比 如 ， 在 被 动 声呐 探测 问题 上 ， 正 例 是 
AEA RO Be CEE) 的 输入 训练 数据 。 在 被 动 声呐 环境 下 ， 测 试 数据 中 可 能 存在 
的 海洋 生物 经 常 造成 虚 警 。 为 了 缓解 这 个 问题 ， 可 以 把 反例 〈 如 海洋 生物 的 回声 ) 包括 在 训练 
集中 从 而 教会 网 络 不 要 混淆 海洋 生物 和 目标 。 

在 神经 网 络 的 独特 结构 中 ， 周 围 环境 的 知识 表示 是 由 网 络 的 自由 参数 〈 即 突 触 权 值 和 偏 置 ) 
的 取 值 所 定义 的 。 这 种 知识 表示 的 形式 构成 神经 网 络 的 设计 本 身 ， 因 此 ， 也 是 网 络 性 能 的 关键 。 


知识 表示 的 规则 

然而 ， 在 人 工 网 络 中 知识 的 表示 是 非常 复杂 的 。 这 里 有 关于 知识 表示 的 通用 的 4 条 规则 ， 
如 下 所 述 。 

规则 1 相似 类 别 中 的 相似 输入 通常 应 产生 网 络 中 相似 的 表示 ， 因 此 ， 可 以 归 入 同一 类 中 。 

测量 输入 相似 性 有 很 多 方法 。 常 用 的 测量 方法 是 利用 欧 几 里 得 距离 的 概念 。 具 体 来 说 ， 令 
x; 定义 一 个 mX1 的 向 量 ， 
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x; = ian siza ee scm T 
所 有 的 元 素 都 是 实 值 ， 上 标 工 表示 矩阵 转 置 。 向 量 zx; 就 是 m 维 空间 〈 称 为 欧 几 里 得 空间 ) 的 
—T A, WAR". WA 19 Bras, Bits mX1 向 量 x;，% 之 间 的 哆 几 里 得 距离 定义 为 


dox = Ix — x Il = [X Cra — 2a)? |” (23) 
k=1 


其 中 x ，zx 分 别 是 输入 向 量 x. x WBA 个 分 量 。 相 应 地 ， 由 向 量 x. x 表示 的 两 个 输入 的 
相似 性 就 定义 为 欧 几 里 得 距离 da(x,，x;)。 输 入 向 量 x; 和 x; 相距 越 近 ， 欧 几 里 得 距离 dO, 
xi ) 就 越 小 ， 相 似 性 就 越 大 。 规 则 1 说 明 ， 如 果 两 个 向 量 是 相似 的 ， 就 将 它们 归 和 信 辣 一 类 ， 

另 一 个 相似 性 测量 方法 是 基于 点 积 或 内 积 ， 它 也 是 借用 了 矩阵 代数 的 概念 。 给 定 一 对 相同 
维 数 的 向 量 x:，x%;， 它 们 的 内 积 是 WX， 定义 为 向 量 x Max, 的 投影 ， 如 图 19 所 示 。 可 展 
FUF: 





(Xi X;) = x) xX = N taty (24) 
k=) 


AR Cx, x BRET RAR Ix; ， 上 上 x; 上， 就 是 两 个 向 
Hx. x 的 夹 角 的 余弦 。 

这 里 定义 的 两 种 相似 性 度量 有 密切 的 关系 ， 如 图 19 
所 示 。 图 19 清楚 地 表明 欧 几 里 得 距离 | x; 一 x; || Be, 
向 量 x Al x, 越 相似 ， 内 积 xix BK. 

为 了 把 这 种 关系 置 于 形式 化 基础 之 上 ， 首 先 将 向 量 
x; 和 x; 归 一 化 ， 即 








Ix || = lxll=1 图 19 图 解 内 积 以 及 作为 模式 相似 性 度量 
我 们 就 可 以 将 式 (23) 写 成 . 的 欧 几 蛙 得 距离 之 间 的 关系 
Ë (x; ,xXx;) = Cx; — xj) Cx; — x) = 2 一 2x xi (25) 


式 (25) 表 明 最 小 化 欧 几 里 得 距离 d(x; ,x ) 就 对 应 于 最 大 化 内 积 (x; ,x;)， 因 而 ， 也 对 应 于 最 大 化 
x, 和 x, 之 问 的 相似 性 。 

这 里 的 欧 几 里 得 距离 和 内 积 的 定义 都 是 用 确定 性 的 术语 定义 的 。 如 果 向 量 x; A x, 是 “ 随 
机 的 ”"， 从 不 同 数据 群体 或 集合 中 得 来 的 ， 又 该 怎样 定义 相似 性 呢 ? 具体 来 说 ， 假 设 两 个 群体 
的 差异 仅 在 它们 的 均值 向 量 。 今 p: 和 分 别 表示 向 量 x; 和 x%; 的 均值 。 也 就 是 说 ， 

w = EEx] (26) 

其 中 FE 是 数据 向 量 x 的 集合 体 (ensemble) 的 统计 期 望 算 子 (statistical expectation operator), 
用 同样 的 方法 定义 均值 向 量 h;。 为 了 度量 这 两 个 群体 的 距离 ， 可 以 用 Mahalanobis 距离 来 衡 
E, A dj. Ax Bx, 的 距离 的 平方 值 定义 为 : 














d = (x — pC, — p) (27) 
其 中 C7! 是 协 方差 矩阵 C 的 道 和 矩阵 。 假 设 两 个 群体 的 协 方差 矩阵 是 一 样 的 ， 表 示 如 下 : 
C= EL¢x; — pi) (x; pi)? | = [E[ (x; wm); pw)" ] (28) 





则 对 于 给 定 的 C 来 说 ， 距 离 dih, 向 量 x Al x, 越 相似 。 

X x, Xj» WTH; pAC I 时 (I 为 单位 矩阵 )， Mahalanobis 距离 变 为 样本 向 量 X; 和 均 
值 身 量 k 间 的 欧 几 里 得 距离 。 

无 论 数据 向 量 x 和 x; 是 确定 的 还 是 随机 的 ， 规则 1 讨论 了 这 两 个 向 量 之 间 是 如 何 彼此 相 
关 的 。 相 关 性 不 仅仅 在 人 类 大 脑 中 起 着 关键 的 作用 ， 同样 对 多 种 信号 处 理 系统 来 说 也 是 如 此 
(Chen et al. , 2007), 

规则 2 网 络 对 可 分 离 为 不 同 种 类 的 输入 向 量 给 出 差别 很 大 的 表示 。 








根据 规则 1， 从 一 个 特定 的 类 中 取得 的 模式 之 间 有 一 个 很 小 的 代数 测量 值 〈 如 欧 几 里 得 距 
离 )。 另 一 方面 ， 从 不 同类 中 取得 的 模式 之 间 的 代数 测量 值 必须 很 大 。 因 而 ， 我 们 说 规则 2 与 
规则 1 EHR. 

规则 3 如 果 某 个 特征 很 重要 ， 那 么 网 络 表 示 这 个 向 量 将 涉及 大 量 神经 元 。 

比如 ， 考 虑 用 雷达 来 探测 在 混杂 状态 〈 即 雷达 从 不 期 望 的 目标 如 建筑 物 、 树 木 和 云层 的 反 
St) 下 的 目标 〈 如 航空 器 ) 。 这 样 的 雷达 系统 的 探测 性 能 由 下 面 两 种 概率 形式 来 衡量 : 

。 探测 概率 ， 就 是 目标 存在 时 系统 判断 目标 出 现 的 概率 。 

。 上 处警 概率 ， 就 是 目标 不 存在 时 系统 判断 目标 出 现 的 概率 。 

根据 Neyman-Pearson 准则 ， 在 虚 警 概率 不 超过 预先 指定 值 的 限制 下 ， 探 测 概 率 达 到 最 大 
fi (Van Trees，1968) 。 在 这 种 应 用 中 ， 接 收 到 的 信号 中 目标 的 实际 出 现代 表 着 输入 信号 中 的 
重要 特征 。 实 际 上 ， 规 则 3 意味 着 在 真实 目标 存在 的 时 候 应 该 有 大 量 神经 元 参与 判决 该 目标 出 
现 。 同 理 ， 仅 当 混 杂 状 态 实 际 存在 的 时 候 才 应 该 有 大 量 神经 元 参与 判决 该 混杂 状态 的 出 现 。 在 
这 两 种 情形 下 ， 大 量 的 神经 元 保证 了 判决 的 高 度 准 确 性 和 对 错误 神经 元 的 容错 性 。 

规则 4 如 果 存 在 先 验 信息 和 不 变性 ， 应 该 将 其 附加 在 网 络 设计 中 ， 这 样 就 不 必 学 习 这 些 
信息 而 简化 网 络 设计 。 

规则 4 特别 重要 ， 因 为 真正 坚持 这 一 规则 就 会 使 网 络 具 有 特定 结构 。 这 一 点 正 是 我 们 需要 
的 ， 原 因 如 下 : 

1. 已 知 生物 视觉 和 听觉 网 络 是 非常 特别 的 。 

2. 相对 于 完全 连接 网 络 ， 特 定 网 络 用 于 调节 的 自由 参数 是 较 少 的 。 因此， 特定 网 络 所 需 
的 训练 数据 更 少 ， 学 习 更 快 而 且 常 常 汉化 性 能 更 强 。 

3. 能 够 加 快 通过 特定 网 络 的 信息 传输 速率 ( 即 网 络 的 吞吐 量 )。 

4. 和 全 连接 网 络 相 比 特定 网 络 的 建设 成 本 比较 低 ， 因 为 其 规模 较 小 。 
然而 ， 要 说 明 的 是 ,将 先 验 知识 结合 进 神 经 网 络 的 设计 中 会 限制 神经 网 络 仅 能 应 用 于 根据 某 些 
感 兴趣 的 知识 来 解决 特定 问题 。 
怎样 在 神经 网 络 设计 中 加 入 先 验 信息 

当然 ， 怎 样 在 神经 网 络 设计 中 建立 先 验 信息 ， 以 此 建立 一 种 特定 的 网 络 结构 ， 是 必须 考虑 
的 重要 问题 。 遗 憾 的 是 ， 现 在 还 没有 一 种 有 效 的 规 
则 来 实现 这 一 目的 ; 有 目前 我 们 更 多 的 是 通过 某 些 特 
别 的 过 程 来 实现 ， 并 已 知 可 以 产生 一 些 有 用 的 结 
果 。 特 别 是 我 们 使 用 下 面 两 种 技术 的 结合 : 

1. 通过 使 用 称 为 接收 域 (receptive field)? 的 
局 部 连接 ， 限 制 网 络 结构 。 

2. 通过 使 用 权 值 共享 (weight-sharing)”， 限 
制 突 触 权 值 的 选择 。 

这 两 种 方法 ， 特 别 是 后 一 种 ， 有 很 好 的 附带 效 
益 ， 它 能 使 网 络 自由 参数 的 数量 显著 下 降 。 

作为 特例 ， 考 虑 一 个 如 图 20 所 示 的 部 分 连接 








前 馈 网 络 。 这 个 网 络 构 造 具有 带 限制 的 结构 。 顶 部 Aie pay pee 

源 节 uh A TE lK 络 其 
6 个 源 节点 组 成 隐藏 神经 元 1 的 接收 域 ， 网 络 其 余 图 20 联合 利用 接收 域 和 权 值 共享 的 图 例 。 
Ba wee tH A CRE 一 个 神经 元 的 接收 域 被 定义 为 输 所 有 四 个 隐 和 神经 元 共享 它们 突 触 连接 


入 域 区 域 ， 其 输入 刺激 能 够 影响 该 神经 元 产生 的 输 的 相同 权 值 集 
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出 信号 。 接 收 域 的 绘制 是 关于 该 神经 元 行为 以 及 其 输出 的 有 效 而 快速 的 描述 。 

为 满足 权 值 共享 限制 ， 我 们 对 网 络 隐 藏 层 中 的 每 个 神经 元 都 使 用 同一 组 突 触 权 值 。 这 样 ， 
在 图 20 所 示 的 例子 中 ， 每 个 隐藏 神经 元 有 6 个 局 部 连接 :共有 4 个 隐藏 神经 元 ， 我 们 可 以 表 
示 每 个 隐藏 神经 元 的 诱导 局 部 域 如 下 : 


v = Y wran 了 一 1,2,3,4 (29) 


其 中 (w) ARENA OS ee nE fe] — AE. re 为 从 源 节 点 有 二 i 十 j 一 1 挑选 的 
信号 。 式 (29) 为 卷 积 和 的 形式 。 这 里 描述 的 前 馈 网 络 使 用 局 部 连接 和 权 值 共享 的 方式 ， 我 们 称 
这 样 的 前 馈 网 络 为 卷 积 网 络 (LeCun and Bengio, 2003), 

在 神经 网 络 的 设计 中 建立 先 验 信息 的 问题 是 属于 规则 4 的 一 部 分 ; 该 规则 的 剩余 部 分 涉及 
不 变性 问题 ， 下 面 进一步 讨论 。 

如 何在 网 络 设计 中 建立 不 变性 

考虑 下 列 物理 现象 : 

。 当 感 兴趣 的 目标 旋转 时 ， 观 察 者 感知 到 的 目标 图 像 通常 会 产生 相应 的 变化 。 

。 在 一 个 提供 它 局 围 环境 的 幅度 和 相位 信息 的 相干 雷达 中 ， 由 于 目标 相对 于 雷达 射线 运 

动 造成 的 多 普 勒 效应 (Doppler effect) ， 活 动 目标 的 回声 在 频率 上 会 产生 偏 移 。 

。 人 说 话 的 语调 会 有 高 低 快 慢 的 变化 。 

为 了 分 别 建立 一 个 对 象 识 别 系 统 、 一 个 雷达 目标 识别 系统 和 一 个 语音 识别 系统 来 处 理 这 些 
现象 ， 系 统 必 须 可 以 应 付 一 定 范围 内 观察 信 叶 的 变换 (transformation)。 相 应 地 ， 一 个 模式 识 
别 问 题 的 主要 任务 就 是 设计 对 这 些 变换 不 变 (invariant) 的 分 类 器 。 也 就 是 说 ， 分 类 器 输出 的 
类 别 估 计 不 受 分 类 器 输入 观察 信号 变换 的 影响 。 

.至少 可 用 三 种 技术 使 得 分 类 器 类 型 的 神经 网 络 对 变换 不 变 (Barnard and Casasent, 1991); 

1. 结构 不 变性 (invariance by structure) 。 适 当地 组 织 神经 网 络 的 设计 ， 在 神经 网 络 中 加 
进 不 变性 。 具 体 来 说 ， 在 建立 网 络 的 神经 元 突 触 连接 时 要 求 同 一 输入 变换 后 必须 得 到 同样 的 输 
出 。 例 如 考虑 利用 神经 网 络 对 输入 图 像 的 分 类 问题 ， 要 求 神 经 网 络 不 受 图 像 关 于 中 心 的 平面 旋 
转 的 影响 。 我 们 可 以 在 网 络 中 强制 加 上 旋转 不 变性 如 下 : 令 wi 表示 神经 元 7j 和 输入 图 像 的 像 
Ri 的 连接 权重 。 如 果 对 所 有 两 个 到 图 像 中 心 距 离 相 等 的 像素 i 和 强制 wi 二 wx， 那 么 神经 
网 络 对 平面 内 的 旋转 不 变 。 但 是 为 了 保持 旋转 不 变性 ， 对 从 原点 出 发 的 相同 半径 距离 上 输入 图 
像 的 每 个 像素 必须 复制 突 触 权 值 wx 。 这 说 明了 结构 不 变性 的 一 个 缺点 : 神经 网 络 即 使 在 处 理 
中 等 大 小 的 图 像 时 ， 网 络 中 的 连接 数目 也 会 变 得 非常 大 。 

2. 训练 不 变性 Gnvariance by training) 。 神 经 网 络 有 天 生 的 模式 分 类 能 力 。 利 用 这 种 能 力 
可 以 直接 得 到 下 面 的 变换 不 变性 : 用 一 些 来 自 同 一 目标 的 不 同样 本 来 训练 网 络 ， 这 些 样 本 代表 
目标 的 不 同 变换 ( 即 目 标的 不 同方 面 )。 假 设 样本 足够 大 且 训 练 后 的 网 络 已 经 学 会 分 辨 目 标的 
不 同方 面 ， 我 们 就 可 以 期 望 训 练 后 的 网 络 能 对 已 出 现 目标 的 不 同 变换 做 出 正确 的 泛 化 。 但 是 从 
工程 的 角度 看 ， 训 练 不 变性 有 两 方面 不 足 : 第 一 ， 如 果 一 个 神经 网 络 训练 后 对 已 知 变换 的 目标 
有 不 变性 ， 不 一 定 能 保证 它 对 其 他 类 型 目标 的 变换 也 有 不 变性 。 第 二 ， 网 络 的 计算 要 求 可 能 会 
很 难 达 到 ， 特 别 在 高 维特 征 空间 尤其 如 此 。 

3. 不 奕 特征 空间 (invariant feature space). 第 三 种 建立 神经 网 络 不 变性 分 类 器 的 技术 如 
图 21 所 示 。 它 依赖 于 这 样 的 前 提 条 件 ， 即 能 提取 
表示 输入 数据 本 质 信息 内 容 特性 的 特征 ， 并 且 这 “输入 
些 特征 对 输入 的 变换 保持 不 变 。 如 果 使 用 这 样 的 
特征 ， 那 么 分 类 神经 网 就 可 以 从 刻画 具有 复杂 决 图 21 不 变 特征 空间 类 型 系统 方 框图 
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策 边 界 的 目标 变换 范围 的 负担 中 解脱 出 来 。 确实， 回 一 上 且 标 的 不 同事 例 的 差异 仅仅 在 于 噪声 和 
偶发 事件 等 不 可 避免 因素 的 影响 。 特 征 空 间 不 变性 提供 了 三 个 明显 的 好 处 : 第 一 ， 适 用 于 网 络 
的 特征 数 可 以 降低 到 理想 的 水 平 。 第 二 ， 网 络 设计 的 要 求 放宽 了 。 第 三 ， 所 有 目标 的 已 知 变换 
的 不 变性 都 得 到 保证 。 

例 1 自 回 归 模 型 

为 了 描述 不 变 特 征 空间 思想 ， 考 虑 一 个 用 于 空中 监控 相 于 雷达 系统 的 例子 ， 其 感 兴趣 的 目 
标 可 能 包括 航空 器 、 天 气 、 迁 移 鸟 群 以 及 地 面目 标 。 这 些 目标 的 雷达 回声 具有 特有 的 谱 特征 。 
并 且 ， 实 验 研 究 表明 这 样 的 雷达 信号 容易 用 中 等 大 小 阶 的 自 回归 (autoregressive，AR) 过 程 
模型 来 建 模 (Haykin and Deng，1991)。AR 模型 是 如 下 对 复数 数据 定义 的 回归 模型 的 特殊 
形式 : 


x(n) = Sai x(n—i) +e (n) (30) 


其 中 (ai) 从 ;为 AR 系数 ，M 为 模型 阶 ， MOET oe eln) 为 用 白 噪声 表示 的 误差 。 基 本 上 ， 
式 (30) 的 AR 模型 由 带 状 延迟 线 滤 波 器 表示 ， 如 图 22a 中 M=2 的 情形 所 示 。 同 样 ， 它 可 由 图 
22b 所 示 的 网 格 滤波 器 表示 ， 它 的 系数 称 为 反射 系数 。 图 22a 中 模型 的 AR 系数 和 图 22b PRR 
型 的 反射 系数 一 一 对 应 。 所 描绘 的 两 个 模型 都 假设 输入 z(m) 是 复数 ， 因 为 在 相干 雷达 的 情形 
下 ，AR 系数 和 反射 系数 都 为 复数 。 在 式 (30) 和 图 22 中 的 星 号 表示 复 共 轿 。 现 在 可 以 说 相干 
雷达 数据 可 以 用 一 组 自 回 归 系 数 来 描述 ， 或 者 由 一 组 相应 的 反射 系数 来 描述 。 后 一 组 系数 有 计 
算 上 的 优点 ， 已 存在 有 效 的 算法 从 输入 数据 直接 计算 。 但 是 ， 特 征 提取 问题 是 很 复杂 的 ， 因 为 
活动 物体 产生 不 同 的 多 普 勒 频率 ， 这 取决 于 测 得 的 物体 相对 于 雷达 的 径 向 速度 ， 并 且 作为 特征 
判别 式 的 反射 系数 的 谱 分 布 会 产生 模糊 。 为 了 克服 这 种 困难 ， 必 须 建立 反射 系数 计算 中 的 多 普 
勤 不 变性 。 第 一 个 反射 系数 的 相位 角 结 果 与 雷达 信和 号 的 多 普 勒 频率 相等 。 相 应 地 ， 归 一 化 多 普 
勤 频 率 可 以 去 掉 多 普 勒 位 移 的 均值 。 这 些 可 以 通过 从 输入 数据 计算 得 到 的 常规 反射 系数 Lew 
定义 新 的 反射 系数 n) HKA: 

Km = Kme ™ 了 一 1 2 AM (31) 


Jz] xin) | =} x(n-2) 


x(n) it 
: > in) 
æ> e(ny=x(n) -x(n) 
x(n)—® 


图 22 二 阶 自 回 归 模 型 ，a) 带 状 延迟 线 模型 ，b) MEK (Rane) 

















20 .第 0 章 导 


1 


其 中 6 为 第 一 反射 系数 的 相位 角 。 式 (31) 描 述 的 运算 称 为 外 差 法 。 一 组 多 普 勒 不 变 雷 达 特 征 可 由 
归 一 化 的 发 射 系数 ki ，k2z，…，km 表示 ，ki 为 唯一 的 实 系数 。 我 们 说 过 ， 空 中 监控 的 雷达 目标 
主要 可 归 类 为 天 气 、 鸟 群 、 航 空 器 和 地 面 ， 前 三 类 目标 都 是 动 的 ， 后 一 种 则 是 不 动 的 。 地 面 回声 
混 频 后 的 谱 参 数 和 航空 器 类 似 ， 但 因为 其 小 的 多 普 勒 位 移 ， 地 面 回声 可 以 和 飞机 相 区 别 。 相 应 
地 ， 雷 达 分 类 器 包括 一 个 如 图 23 所 示 的 后 处 理 器 ， 用 来 操作 分 类 结果 (编码 标号 ) 以 识别 地 面 
类 (Haykin and Deng，1991)。 这 样 ， 在 图 23 中 的 预 处 理 器 处 理 从 分 类 妖 输 入 中 抽取 的 多 普 勒 位 
移 不 变 特征 ;而 后 处 理 器 利用 存储 的 多 普 勒 特征 区 分 返回 的 地 面 和 航空 器 信号 。 


特征 抽取 器 
( 预 处 理 器 ) 












图 23 ”雷达 信号 的 多 普 勒 位 移 不 变 分 类 跨 


例 2 回声 定位 蝙 旺 
神经 网 络 知 识 表示 的 一 个 更 有 趣 的 例子 是 蝙蝠 的 生物 回声 定位 声呐 系统 。 为 了 声音 映射 ， 
大 多 数 蝙蝠 使 用 频率 调制 (FM 或 “chirp”) 信号， 在 FM 信和 号 中 ， 信 和 号 的 瞬时 频率 随时 间 变 
化 。 具 体 来 说 ， 蝙 蝠 用 口 发 出 短 时 FM 声呐 信号 ， 用 听觉 系统 来 作 接收 器 。 对 于 感 兴趣 目标 的 
回声 在 听觉 系统 中 选用 声音 参数 不 同 组 合 的 神经 元 活动 来 表达 。 蝙 蝠 的 听 党 表达 有 三 个 主要 的 
神经 维 数 (Simmons 等 ，1992) : 
。 回声 频率 ， 在 耳蜗 频率 图 中 通过 “位 置 ”发 信和 来 编码 ; 通过 整个 听觉 系统 的 通路 保存 ， 
该 通路 是 调制 成 不 同 频率 的 一 定神 经 元 的 有 序 排列 。 
.。 回声 幅度 ， 由 其 他 具有 不 同 动态 范围 的 神经 元 编码 ; 它 被 表示 成 幅度 调制 和 每 个 刺激 
的 放电 次 数 。 
。 回声 延迟 ， 通 过 神经 计算 来 编码 〈 基 于 互相 关 ) 并 产生 延迟 选择 响应 。 它 被 表示 成 目 
标 范 围 调制 。 
用 于 图 像 形成 的 目标 回声 的 两 个 主要 特点 是 目标 “形状 ”的 谱 和 目标 范围 的 “延迟 ”。 利 
用 目标 不 同 反射 面 回声 〈 反 射 ) 的 到 达 时 间 ， 蝙 蝠 感知 “形状 ”。 为 此 目的 ， 回 声 谱 的 频率 信 
息 被 转换 为 目标 的 时 间 结 构 估 计 。 由 Simmons RHA SA M4 6 k (Eptesicus fuscus) 
进行 的 实验 严格 验证 了 这 个 转换 过 程 ， 它 的 组 成 包括 并 行 时 域 转换 和 频率 对 时 域 转换 构成 ， 它 
的 收敛 输出 产生 目标 感知 图 像 范 围 轴 上 的 共同 延迟 。 虽 然 最 初 执行 的 回声 延迟 的 听觉 时 间 表 示 
和 回声 谱 的 频率 表示 方法 不 同 ， 但 看 起 来 蝙蝠 的 感知 协调 性 来 自 于 变换 自身 的 一 些 性 质 。 并 且 
特征 不 变性 被 租 人 声呐 图 像 形成 过 程 ， 所 以 它 本 质 上 独立 于 目标 运动 和 蝙 蝙 自 己 的 运动 。 
一 些 最 终 评论 
神经 网 络 中 的 知识 表示 和 网 络 结构 有 着 直接 关系 。 遗 性 的 是 ， 还 没有 成 功 的 理论 可 以 根据 
环境 来 优化 神经 网 络 结构 ， 或 者 评价 修改 网 络 结构 对 网 络 内 部 知识 表示 的 影响 。 实 际 上 ， 对 这 
些 问 题 的 满意 结果 经 常 要 对 感 兴趣 的 具体 应 用 进行 彻底 的 实验 研究 才能 得 到 ， 而 神经 网 络 的 设 
计 者 也 成 为 结构 学 习 环 中 的 关键 部 分 。 | 


0.8 ”学习 过 程 


和 我 们 自己 能 够 通过 多 种 不 同 的 方法 从 周围 环境 中 学 习 一 样 ， 神 经 网 络 也 有 多 种 不 同 的 学 
习 方法 。 广 义 上 讲 ， 我 们 可 以 通过 神经 网 络 的 功能 来 对 其 学 习 过 程 进 行 如 下 分 类 : 有 教师 学 习 
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和 无 教师 学 习 。 按 照 同样 的 标准 ， 后 者 又 可 以 分 为 无 监督 学 习 和 强化 学 习 两 个 子 类 。 这 些 应 用 
于 神经 网 络 的 不 同形 式 是 和 人 类 学 习 的 形式 相似 的 。 


有 教师 学 习 
有 教师 学 习 也 称 为 监督 学 习 。 图 24 是 说 明 这 种 学 习 方式 的 方 框图 。 从 概念 上 讲 ， 我 们 可 
以 认为 教师 具有 对 周围 环境 的 知识 ， 这 些 知 识 被 表达 为 一 系列 的 输入 一 输出 样本 。 然 而 神经 网 


络 对 环境 却 一 无 所 知 。 现 在 假设 给 教师 和 神经 网 络 提供 从 同样 环境 中 提取 出 来 的 训练 向 量 〈 即 
样 例 ) 。 教 师 可 以 根据 自身 掌握 的 一 些 知识 为 神经 网 络 提供 对 训练 向 量 的 期 望 响应 。 事 实 上 ， 
期 望 响 应 一 般 都 代表 着 神经 网 络 完成 的 最 优 动 作 。 神 经 网 络 的 参数 可 以 在 训练 向 量 和 误差 信号 
的 综合 影响 下 进行 调整 。 误 差 信 号 可 以 定义 为 神经 网 络 的 实际 响应 与 预期 响应 之 差 。 这 种 调整 
可 以 逐步 而 又 反复 地 进行 ， 其 最 终 目的 就 是 要 让 神经 网 络 模拟 Cemulate) 教师 ; 在 某 种 统计 
的 意义 下 ， 可 以 认为 这 种 模拟 是 最 优 的 。 利 用 这 种 手段 ， 教 师 所 掌握 的 关于 环境 的 知识 就 可 以 
通过 训练 过 程 最 大 限度 地 传授 给 神经 网 络 。 当 条 件 成 熟 的 时 候 ， 就 可 以 将 教师 排除 在 外 ， 让 神 


经 网 络 完全 自主 地 应 对 环境 。 描述 环境 


我 们 刚刚 描述 的 监督 学 习 形 式 是 误差 -修正 学 习 状态 的 向 量 
(error-correction learning) 的 基础 。 由 图 24 可 知 ， 监 = 教师 
督学 习 系统 构成 一 个 闭环 反馈 系统 ， 但 未 知 的 环境 不 期 记 
包含 在 循环 中 。 我 们 可 以 采用 训练 样本 的 均 方 误差 响应 








(mean-square error) 或 平方 误差 和 (sum of squared 
errors) 作为 系统 性 能 的 测试 手段 ， 它 可 以 定义 为 系统 
的 一 个 关于 自由 参数 〈 即 突 触 权 值 ) 的 函数 。 该 函数 
可 以 看 作 一 个 多 维 误 差 -性 能 曲面 (error-performance AARE 
surface) ， 或 者 简称 误差 曲面 (error surface), HPA 
由 参数 作为 坐标 轴 。 实 际 误差 曲面 是 在 所 有 可 能 的 输 
人 输出 样 例 上 的 平均 。 任 何 一 个 在 教师 监督 下 的 系统 给 定 的 操作 都 表示 误差 曲面 上 的 一 个 点 。 
该 系统 要 随时 间 而 提高 性 能 ， 就 必须 向 教师 学 习 ， 操 作 点 必须 要 向 误差 曲面 的 最 小 点 逐渐 下 
降 ， 误 差 极 小 点 可 能 是 局 部 最 小 ， 也 可 能 是 全 局 最 小 。 监 督学 习 系 统 可 以 根据 系统 当前 的 行为 
计算 出 误差 曲面 的 梯度 ， 然 后 利用 梯度 这 一 有 用 信息 来 求 得 误差 极 小 点 。 误 差 曲 面 上 任何 一 点 
的 梯度 是 指向 最 快速 下 降 方 向 的 向 量 。 实 际 上 ， 通 过 样本 进行 监督 学 习 ， 系 统 可 以 采用 梯度 向 
量 的 “ 肯 时 估计 ”(instantaneous estimate), ， 这 时 将 样 例 的 索引 假定 为 访问 的 时 间 。 采 取 这 种 
估计 一 般 会 导致 在 误差 曲面 上 操作 点 的 运动 轨迹 经 常 以 “随机 行走 ”的 形式 出 现 。 然 而 ， 如 果 
我 们 能 给 定 一 个 设计 好 的 算法 来 使 代价 函数 最 小 ， 而 且 有 足够 的 输入 /输出 样本 集 和 充裕 的 训 
练 时 间 ， 那 么 监督 学 习 系 统 往往 能 够 较 好 地 通 近 一 个 未 知 的 输入 一 输出 映射 。 
无 教师 学 习 

在 监督 学 习 中 ， 学 习 过 程 是 在 教师 的 监督 下 进行 的 。 然 而 ， 在 无 教师 学 习 范 例 中 ， 顾 名 思 
义 ， 没 有 教师 监视 学 习 过 程 。 也 就 是 说 ， 没 有 任何 带 标号 的 样 例 可 以 供 神经 网 络 学 习 。 在 无 教 
师 学 习 范 例 下 ， 又 有 如 下 的 两 个 子 类 。 
强化 学 习 

在 强化 学 习 (reinforcement learning) 中 ， 输入 输出 映射 的 学 习 是 通过 与 环境 的 不 断交 互 
完成 的 ， 目 的 是 使 一 个 标量 性 能 指标 达到 最 小 。 图 25 显示 的 是 强化 学 习 系 统 的 方 框图 。 这 种 
学 习 系 统 建立 在 一 个 评价 的 基础 上 ， 评 价 将 从 周围 环境 中 接收 到 的 原始 强化 信号 转换 成 一 种 称 
为 启迪 强化 信号 的 高 质量 强化 信号 ， 两 者 都 是 标量 输入 (Barto 等 ，1983) 。 设 计 该 系统 的 目的 


十 








图 24 有 教师 学 习 方 框图 
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是 为 了 适应 延迟 强化 情况 下 的 学 习 ， 即 意味 着 系统 观察 从 环境 接收 的 一 个 时 序 刺激 ， 它 们 最 终 
产生 启发 式 的 强化 信号 。 bie 
强化 学 习 的 目标 是 将 cost-to-go 函数 最 小 化 ，cost- 状态 (输入) 化 信号 
to-go 函数 定义 为 采取 一 系列 步骤 动作 的 代价 累积 期 记 ig 
值 ， 而 不 是 简单 的 直接 代价 。 可 以 证 明 ， 在 时 间 序 列 上 
早期 采取 的 动作 事实 上 是 整个 系统 最 好 的 决定 。 学 习 系 
统 的 功能 就 是 用 来 发 现 这 些 动作 并 将 它们 反馈 给 环境 。 
I FANE ICE RO ARIE 
在 学 习 过 程 中 的 每 个 步骤 ， 没 有 教师 提供 一 个 其 
palais 图 LEINE 统 
。 生成 原始 强化 信号 时 的 延迟 意味 着 学 习 机 必须 解 25 强化 学 习 方 框图 ; 学 习 系统 和 
决 时 间 信 任 赋 值 问题 。 也 就 是 说 ， 对 将 导致 最 终 环境 都 在 反馈 环 内 部 
结果 的 时 间 序 列 步 中 的 每 一 个 动作 ， 学 习 机 必须 各 自 独立 地 对 信任 和 责任 赋值 ， 而 原 
始 强化 可 能 仅 评价 最 终结 果 。 
尽管 存在 这 些 困难 ， 但 延迟 强化 学 习 还 是 非常 有 吸引 力 的 。 它 提供 系统 与 周围 环境 交互 的 
基础 ， 因 此 可 以 仅仅 在 这 种 与 环境 交互 获得 经 验 结果 的 基础 上 ， 发 展 学 习 能 力 来 完成 指定 























任务 。 

无 监督 学 习 

如 图 26 所 示 ， 在 无 监督 或 自 组 织 学 习 系统 中 ， 没 有 外 部 的 教师 或 者 评价 来 监督 学 习 的 过 程 。 而 
且 ， 必 须 提 供 任 务 独 立 度量 (task-independent measure) 来 度 Had ERS 
量 网 络 的 表达 质量 ， 让 网 络 学 习 该 度量 而 且 将 根据 这 个 [m aa] pe ea ae 
度量 来 最 优化 网 络 自由 参数 。 对 一 个 特定 的 任务 独立 度 
量 来 说 ， 一 旦 神经 网 络 能 够 和 输入 数据 的 统计 规律 相 一 图 26 无 监督 学 习 方 框图 


致 ， 那 么 网 络 将 会 发 展 其 形成 输入 数据 编码 特征 的 内 部 表示 的 能 力 ， 从 而 自动 创造 新 的 类 别 
(Becker，1991) 。 

为 了 完成 无 监督 学 习 ， 我 们 可 以 使 用 竞争 性 学 习 规则 。 例 如 ， 可 以 采用 包含 两 层 的 神经 网 
络 ， 输入 层 和 竞争 层 。 输 入 层 接收 有 效 数据 。 竞 争 层 由 相互 竞争 根据 一 定 的 学 习 规 则 〉 的 神 
经 元 组 成 ， 它 们 力图 获得 响应 包含 在 输入 数据 中 的 特征 的 “机 会 >。 最 简单 的 形式 就 是 神经 网 
络 采用 “ 胜 者 全 得 ”的 策略 。 在 这 种 策略 中 具有 最 大 总 输入 的 神经 元 赢得 竞争 而 被 激活 ， 而 其 
他 所 有 的 神经 元 被 关 掉 。 
0.9 学 习 任 务 

本 章 前 面 几 节 讨 论 了 不 同 的 学 习 范 例 。 本 节 将 描述 一 些 基本 的 学 习 任 务 。 对 特定 学 习 规 则 
的 选择 与 神经 网 络 需 要 完成 的 学 习 任 务 密切 相关 ， 而 学 习 任 务 的 多 样 性 正 是 神经 网 络 通用 性 的 
证 明 。 
模式 联想 

联想 记忆 是 与 大 脑 相 似 的 依靠 联想 学 习 的 分 布 式 记忆 。 自 从 亚 里 士 多 德 时 代 起 ， 联 想 就 被 
看 作 是 人 类 记忆 的 一 个 显著 特征 ， 而 且 认 知 的 所 有 模型 都 以 各 种 形式 使 用 联想 作为 其 基本 行为 
(Anderson, 1995), 

联想 有 一 种 或 两 种 形式 ， 自 联想 与 异 联想 。 在 自 联想 方式 中 ， 神 经 网 络 被 要 求 通过 不 断 出 
一 系列 模式 (向量) 给 网 络 而 存储 这 些 模 式 。 其 后 将 某 已 存 模 式 的 部 分 描述 或 畸变 《噪声 ) 
形式 出 示 给 网 络 ， 而 网 络 的 任务 就 是 检索 (回忆) 出 已 存储 的 该 模式 。 异 联想 与 自 联想 的 不 同 
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之 处 就 在 于 一 个 任意 的 输入 模式 集合 与 男 一 个 输出 模式 集合 配对 。 自 联想 需要 使 用 无 监督 学 习 
方式 ， 而 异 联想 采用 监督 学 习 方式 。 
设 xe 表示 在 联想 记忆 中 的 关键 模式 〈 问 量 ) 而 yi 表示 存储 模式 (向量 )。 网 络 完成 的 模式 
联想 由 下 式 表示 : 
Xe —> y, k=1,2,%,g (32) 
其 中 g 是 存储 在 网 络 中 的 模式 数 。 关 键 模 式 xs 作为 给 入， 不 仅 决 定 存储 模式 ye 的 存储 位 置 ， 
同时 也 拥有 恢复 该 模式 的 键 码 。 


“23 


在 自 联 想 记忆 模式 中 : y 二 x， 所 以 输入 输出 数据 的 空间 维 数 相 同 。 在 异 联 想 记忆 模式 


h: yxs 因此 ， 第 二 种 情况 的 输出 空间 维 数 可 能 与 输入 数据 空间 维 数 相同 ， 也 可 能 不 同 。 
联想 记忆 模式 的 操作 一 般 包括 两 个 阶段 : 

。 存储 阶段 ， 指 的 是 根据 式 (32)? 对 网 络 进行 训练 。 

。 回忆 阶段 ， 网 络 根据 所 呈现 的 有 噪声 的 或 畸变 的 关键 模式 恢复 对 应 的 存储 模式 。 

令 刺 激 (输入 ) x 表示 关键 模式 x, 的 有 噪声 或 畸变 形 gy = sa 
式 。 如 图 27 所 示 ， 这 个 刺激 产生 响应 输出) y。 对 理想 的 向 量 x ax £8 ==> 向 量 y 
回忆 来 说 ， 我 们 有 yy,， 其 中 y 为 由 关键 模式 x, 联想 的 记 l 
亿 模式 。 如 果 对 xx 有 yAn, Mapam kag., 。 图 27 模式 联想 小 输入 输出 关系 

联想 记忆 中 存储 的 模式 数目 a 提供 网 络 存储 能 力 的 -- 个 直接 度量 。 在 设计 联想 记忆 时 ， 问 
题 就 是 使 存储 能 力 9 (表示 为 与 构建 网 络 的 神经 元 总 数 N 的 百分比 ) 尽量 大 ， 并 且 保 持 记忆 中 
的 大 部 分 模式 能 正确 回忆 。 
模式 识别 

人 类 非常 擅长 模式 识别 。 通 过 感官 ， 我 们 可 以 从 周围 的 世界 接收 到 数据 ， 并 且 可 以 识别 出 
数据 源 。 我 们 往往 是 瞬间 完成 ， 几 乎 毫 不 费力 。 例 如 ， 我 们 能 够 识别 出 任何 一 张 熟悉 的 脸 ， 即 
使 我 们 和 这 个 人 已 经 多 年 未 曾 谋面 。 无 论 电 话 线路 如 何 差劲 ， 我 们 还 是 可 以 迅速 地 根据 他 或 者 
她 的 声音 很 快 地 甄别 出 你 的 熟人 。 仅 仅 半 一下， 就 能 分 辨 出 一 个 煮 鸡蛋 是 否 变 坏 。 人 类 是 通过 
学 习 过 程 来 成 功 地 实现 模式 识别 的 ， 神 经 网 络 也 是 如 此 。 

模式 识别 被 形式 地 定义 为 一 个 过 程 ， 由 这 个 过 程 将 接收 到 的 模式 或 信号 确定 为 一 些 指定 类 
别 中 的 一 个 类 。 神 经 网 络 要 实现 模式 识别 需要 先 经 过 一 个 训练 的 过 程 ， 在 此 过 程 中 网 络 需 要 不 
断 地 接受 一 个 模式 集合 以 及 每 个 特定 模式 所 属 的 类 别 ; 然后， 把 一 个 以 前 没有 见 过 但 属于 用 于 
训练 网 络 的 同一 模式 总 体 的 新 模式 呈现 给 神经 网 络 。 神 经 网 络 可 以 根据 从 训练 数据 中 提取 的 信 
息 识 别 特定 模式 的 类 别 。 神 经 网 络 的 模式 识别 本 质 上 是 基于 统计 特性 的 ， 各 个 模式 可 以 表示 成 
多 维 决策 空间 的 一 些 点 。 决 策 空间 被 划分 为 不 同 的 区 域 ， 每 个 区 域 对 应 于 一 个 模式 类 。 决 策 边 
界 由 训练 过 程 决 定 。 我 们 可 以 根据 各 个 模式 类 内 部 以 及 它们 之 间 的 固有 可 变性 用 统计 方式 来 确 
定 边 界 。 

一 般 而 论 ， 采 用 神经 网 络 的 模式 识别 机 分 为 如 下 两 种 形式 : 

。 如 图 28a 的 混合 系统 所 示 ， 识 别 机 分 为 两 部 分 ， 用 来 作 特征 提取 的 无 监督 网 络 和 作 分 

类 的 监督 网 络 。 这 种 方法 遵循 传统 的 统计 特性 模式 识别 方法 (Fukunaga, 1990; Duda 
等 ，2001; Theodoridis and Koutroumbas, 2003). 用 概念 术语 来 表示 ， 一 个 模式 是 一 
A m 维 的 可 观测 的 数据 ， 即 m 维 观测 (数据 ) 空间 集中 的 一 个 点 x。 如 图 28b 所 示 ， 
特征 提取 被 描述 为 一 个 变换 ， 它 将 点 x 映射 成 一 个 g 维特 征 空间 相对 应 的 中 间 点 ya 
m)。 这 种 变换 可 看 作 是 维 数 缩减 〔 即 数据 压缩 )， 这 种 做 法 主要 是 基于 简化 分 类 任务 
的 考虑 。 分 类 本 身 可 描述 为 一 个 变换 ， 它 将 中 间 点 y 映射 为 7 维 决策 空间 上 的 一 个 类 ， 
其 中 > 是 要 区 分 的 类 别 数 。 
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。 识别 机 设计 成 一 个 采用 监督 学 习 算法 的 前 馈 网 络 。 在 这 第 二 个 方法 中 ,特征 提取 由 网 
络 隐藏 层 中 的 计算 单元 执行 。 
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图 28 模式 分 类 的 经 典 方法 图 解 


PA IC id HU 
=P BONA ES BRE. SW RA 
d = f(x) (33) 
描述 的 一 个 非 线 性 输入 输出 映射 其 中 向 量 x 是 输入 ， 向 景 d 为 输出 。 向 量 值 函数 fC) 假定 为 
未 知 。 为 了 弥补 函数 8) 知识 的 缺乏 ， 我 们 假定 有 如 下 的 带 标号 样 例 集合 : 
T = {(x,.d,)}%, (34) 
BOAT AY BER SL — ES REER AT RPC) 4E h R SE SBS HR RB A at e 
射 的 函数 FO) RULER MERE Sf) eee, B 
| Fox) 一 了 f(x) || 过 ,对 于 所 有 的 xX (35) 
其 中 e 是 一 个 很 小 的 正 数 。 假 定 训 练 集 9 的 样本 数目 N 足够 大 ， 神 经 网 络 也 有 适当 数目 的 自由 
参数 ， 那 么 对 于 特定 的 任务 逼近 误差 s 应当 是 足够 小 的 。 
在 这 里 ， 通 近 问 题 其 实 是 一 个 很 完整 的 监督 学 习 ， 其 中 x 是 输入 向 量 ,， 而 d; 是 期 望 的 响 
应 。 我 们 可 以 换 一 个 角度 思考 这 种 问题 ， 将 监督 学 习 看 成 是 一 个 逼近 问题 。 
神经 网 络 和 逼近 一 个 未 知 输 和 人 -输出 映射 的 能 力 可 以 从 两 个 重要 途径 加 以 利用 : 
1) 系统 辨识 。 令 式 (33) 描 述 一 个 未 知 无 记忆 多 痊 入 - 
多 输出 (multiple input-multiple output, MIMO) 系统 的 
输入 输出 关系 ; 所 谓 “ 无 记忆 ”系统 ， 是 指 时 间 不 变 的 系 wr | 
统 。 然 后 利用 式 (34) 中 的 标定 的 样 例 集合 将 神经 网 络 作为 “向量 Ez 
系统 的 一 个 模型 进行 训练 。 假 定 y 表示 神经 网 络 中 对 输入 | 
向 量 x, 产生 的 实际 输出 。 正 如 图 29 ro, EdC x 相 
对 应 的 期 望 响 应 ) 与 输出 y; 之 间 产 生 一 个 误差 信号 e 
个 误差 信号 接着 用 来 调节 网 络 的 自由 参数 ， 最 终 使 未 知 系 TO 
统 的 输出 和 神经 网 络 输出 在 整个 训练 集 了 上 的 平方 差 在 统 “图 29 系统 辨识 方 框图 实现 辨识 的 
计 意 义 上 达到 最 小 。 神经 网 络 是 反馈 环 的 一 部 分 
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2) 逆 模型 。 下 一 步 假定 我 们 给 定 一 个 已 知 无 记忆 MIMO 系统 ， 其 输入 输出 关系 如 式 (33) 
所 示 。 在 这 种 情况 下 的 要 求 是 如 何 构造 一 个 道 模型 ， 针 对 向 量 d 产生 向 量 x。 道 系统 可 以 由 : 
x=f' d) (36) 
描述 ， 其 中 向 量 值 函数 OC ORMIONRAM. EB, ORE fC:) 的 倒数 ， 上 标 一 1 仅仅 
是 反 哨 数 的 标志 而 已 。 在 实际 直到 的 很 多 问题 中 ,向量 值 函数 f(*) 过 于 复杂 ， 从 而 限制 了 求 出 
反 函 数 六 !() 的 直接 公式 。 给 定 如 式 (34) 的 一 些 标定 样 例 集 ， 我 们 可 以 通过 采取 图 30 所 示 的 
方案 构造 一 个 神经 网 络 来 表 近 也 数 {5'(.)。 在 这 里 描述 的 情况 中 ，x; 和 的 作用 交换 了 位 置 ; 
向 量 d 作为 输入 ， 向 量 x; 作为 期 望 的 响应 。 假 定 误 差 信 号 向 量 @ 表示 x%; 与 神经 网 络 针对 d: 的 
实际 输出 y 之 间 的 差 。 与 系统 辨识 问题 类 似 ， 利 用 误差 信号 向 量 来 调节 网 络 的 自由 参数 ， 最 
终 使 未 知道 系统 的 输出 和 神经 网 络 输 出 在 整个 训练 样 例 集 上 的 平方 差 在 统计 意义 上 达到 最 小 。 
特别 地 ， 逆 模型 是 比 系统 辨识 更 困难 的 学 习 任 务 ， 因 为 对 它 的 解 可 能 不 是 唯一 的 。 


Whe, 
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控制 

神经 网 络 可 以 完成 的 另外 一 个 学 习 任 务 是 对 设备 进行 控制 操作 。 设 备 是 指 一 个 过 程 或 者 是 
可 以 在 被 控 条 件 下 维持 运转 的 系统 的 一 个 关键 部 分 。 学 习 和 控制 相关 其 实 不 是 一 件 什 么 值得 大 
惊 小 怪 的 事情 ， 毕 竟 我 们 人 脑 就 是 一 个 计算 机 〈 即 信息 处 理 器 )， 作 为 整个 系统 的 输出 是 实际 
的 动作 。 在 控制 的 这 种 意义 下 ， 人 脑 就 是 一 个 活生生 的 例子 ， 它 证 明 可 以 建立 一 个 广义 控制 
器 ， 充 分 利用 并 行 分 布 式 硬件 ， 能 够 并 行 控 制 成 千 上 万 的 制动器 〈 如 肌肉 神经 纤维 )， 能 够 处 
理 非 线 性 性 和 噪声 ， 并 且 可 以 在 长 期 计划 水 平 上 进行 优化 CWerbos. 1992). 

考虑 如 图 31 所 示 的 反馈 控制 系统 。 该 系统 涉及 利用 被 控 设 备 的 单元 反馈 ， 邯 设备 的 输出 直 
接 反 馈 给 输入 。 因 此 设备 的 输出 y 减 去 从 外 部 信息 源 提供 的 参考 信号 4， 产 生 误差 信和 号。 并 将 之 
应 用 到 神经 控制 器 以 便 调节 它 的 自由 参数 。 控 制 器 的 主要 功能 就 是 为 设备 提供 相应 的 输入 ， 从 而 
使 它 的 输出 y 跟 踪 参 考 信 号 d。 换 句 话说 ， 就 是 控制 器 不 得 不 对 设备 的 输入 输出 行为 进行 转换 。 
误差 信号 设备 答 入 


(5 =a Se 
单元 反馈 


图 31 反馈 控制 系统 方 框图 
我 们 注意 到 在 图 31 中 误差 信号 e 在 到 达 设 备 之 前 先 通过 神经 控制 器 。 结 果 ， 根 据 误 差 一 
修正 学 习 算法 ， 为 了 实现 对 设备 自由 参数 的 调节 ， 我 们 必须 知道 Jacobi p l 


= (24) on 
其 中 是 设备 输出 y 的 一 个 元 素 ， 而 u 是 设备 输入 & 的 一 个 元 素 。 遗憾 的 是 偏 导 数 dy/du 
对 于 不 同 的 &，j 依赖 于 设备 的 运行 点 ， 因 而 是 未 知 的 。 我 们 可 以 采用 下 面 两 种 方法 之 一 来 近 


设备 输出 
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似 计算 该 偏 导 数 ， 

D 间接 学 习 。 利 用 设备 的 实际 输入 -输出 测量 值 ， 首 先 构造 神经 网 络 模 型 产生 一 个 它 的 复 
制品 。 接 着 利用 这 个 复制 蝇 提 供 Jacobi 矩阵 了 的 一 个 估计 值 。 随 之 把 构成 Jacobi 矩阵 J KIRE 
数 用 于 误差 -修正 学 习 算 法 ， 以 便 计算 对 神经 控制 器 的 自由 参数 的 调节 (Nguyen and Widrow, 
1989; Suykens 4, 1996; Widrow and Walach, 1996), 

2) 直接 学 习 。 偏 导数 Oy /ou 的 符号 通常 是 知道 的 ， 而 且 在 设备 的 动态 区 域内 一 般 是 不 
变 的 。 这 意味 着 我 们 可 以 通过 各 自 的 符号 来 逼近 这 些 偏 导数 。 它 们 的 绝对 值 由 神经 控制 器 自由 
参数 的 一 种 分 布 式 表示 给 出 (Saerens and Soquet, 1991; Schiffman and Geffers，1993) 。 因 
此 ， 神 经 控制 器 能 够 直接 从 设备 学 习 如 何 调节 它 的 自由 参数 。 
波束 形成 

波束 形成 是 用 来 区 分 目标 信号 和 背景 噪声 之 间 的 空间 性 质 的 。 用 于 实现 波束 形成 的 设备 称 
为 波束 形成 器 Chemformer), 

波束 形成 适合 利用 于 比如 蝙蝠 回声 定位 听觉 系统 皮质 层 的 特征 映射 这 样 的 任务 (Suga, 
1990a; Simmons 等 ，1992) 。 蝙 蝠 的 回声 定位 由 发 送 短 时 频率 调制 (frequency-modulated， 
FM) 声呐 信号 来 了 解 周围 环境 ,然后 利用 它 的 听觉 系统 (包括 一 对 耳 人 条) 集中 注意 于 它 的 猫 
物 〈 如 飞行 的 昆虫 )。 蝙 晤 的 耳 杂 提供 波束 形成 能 力 ， 听 觉 系 统 利 用 它 产生 注意 选择 性 (atten- 
tional selectivity) 。 

波束 形成 通常 用 于 雷达 和 声呐 系统 ， 它 们 的 基本 任务 是 在 接收 器 噪声 和 于 扰 信 号 〈 如 人 为 
干扰 ) 出 现 的 情况 下 探测 和 跟踪 感 兴趣 的 目标 。 两 个 因素 使 这 个 任务 复杂 化 ， 

。 目标 信号 源 自 未 知 的 方向 。 

。 干扰 信号 无 可 用 的 先 验 信息 。 

处 理 这 种 情况 的 一 种 方法 是 使 用 广义 旁 办 消除 器 (generalized sidelobe canceller, GSLO), 图 32 显 
示 的 是 它 的 方 框图 。 这 个 系统 由 以 下 组 件 组 成 (Griffiths and Jim, 1982; Haykin, 2002), 
。 一 个 天 线 元 阵列 ， 它 提供 对 空间 中 离散 点 上 被 观察 信号 取样 的 手段 。 
。 一 个 线性 组 合 器 ， 它 是 由 固定 权重 集合 {ww} 定义 的 ， 其 输出 就 是 期 望 的 响应 。 这 个 线性 
组 合 器 的 作用 就 像 一 个 “空间 滤波 器 ”， 它 由 一 个 辐射 模式 刻画 〈( 即 一 个 天 线 输出 振幅 与 输 
人 信号 人 射 角 的 极 坐 标 图 ) 。 辐 射 模式 的 主办 指向 规定 的 方向 。 因 此 GSLC 受 它 约束 而 产生 
一 个 无 畸变 的 响应 。 线 性 组 合 器 的 输出 记 为 4(n)， 它 对 波束 形成 器 提供 期 望 的 响应 。 
。 一 个 信号 阻塞 给 阵 C.， 它 的 功能 是 删除 和 干扰， 这 种 干扰 是 通过 代表 线性 组 合 器 的 空间 


线性 组 合 器 
厂 ` 








期 望 响 应 

















图 32 广义 旁 瓣 消除 器 方 框图 
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。 一 个 具有 可 调 参 数 的 神经 网 络 ， 它 被 设计 成 能 适应 干扰 信号 的 统计 变化 。 
神经 网 络 自 由 参数 的 调节 是 由 一 个 在 误差 信号 eC(n) 上 操作 的 误差 修正 学 习 算 法 完成 的 ， 
eln) 由 线性 组 合 器 的 输出 da(n) 和 神经 网 络 的 实际 输出 y(n) 之 间 的 差 确 定 。 从 而 GSLC 在 线性 
组 合 器 的 监督 下 操作 ， 线 性 组 合 器 担当 着 “教师 ”的 角色 。 作 为 普通 的 监督 学 习 时 ， 注 意 线性 
组 合 器 是 在 神经 网 络 的 反馈 环 之 外 的 。 一 个 使 用 神经 网 络 来 学 习 的 波束 形成 器 称 为 神经 - 波 来 
形成 器 (neuron-beamf{former)。 这 类 学 习 机 可 归 人 注意 性 神经 计算 机 (attentional neurocom- 
puters) 的 范围 (Hecht-Nielsen，1990)。 


0.10 ARE 


在 本 导言 章节 中 ， 我 们 把 注意 力 集中 于 神经 网 络 ， 而 关于 神经 网 络 的 研究 是 由 人 脑 所 局 发 
的 。 神 经 网 络 的 一 个 突出 的 重要 性 质 是 “学 习 ”， 而 学 习 可 以 分 为 以 下 几 个 类 别 。 

D 监督 学 习 ， 通 过 最 小 化 感 兴趣 的 代价 函数 来 实现 特定 的 输入 -输出 映射 ， 需 要 提供 用 标 
或 者 期 望 的 响应 。 

2) 无 监督 学 习 ， 其 执行 依赖 于 提供 网 络 在 自 组 织 方式 下 学 习 所 需要 的 对 表示 质量 的 “ 任 
务 独立 度量 ”。 
O D 强化 学 习 ， 学 习 系统 通过 持续 地 与 其 环境 的 交互 来 最 小 化 一 个 标量 性 能 指标 ， 从 而 实 
现 输入 -输出 映射 。 

监督 学 习 依 赖 于 带 标号 样 例 (labeled example) 的 训练 样本 ， 每 个 样 例 由 一 个 输入 信和 号 
(刺激 ) 以 及 相应 的 期 望 〈 目 标 ) 响应 组 成 。 实 际 上 ， 我 们 发 现 收集 带 标 号 样 例 是 费时 而 郧 贵 
的 任务 ， 在 处 理 大 规模 学 习 问 题 时 尤其 如 此 。 因 而 我 们 发 现 带 标号 样 例 是 短缺 的 。 另 一 方面 ， 
无 监督 学 习 仅仅 依赖 于 无 标号 样 例 ， 样 例 仅 简单 地 由 输入 信号 或 者 刺激 组 成 ， 因 而 通常 无 标号 
样 例 的 供应 很 充分 。 根 据 这 样 的 事实 ， 另 一 种 学 习 的 分 支 引起 了 广泛 的 兴趣 : 半 监 督学 习 。 半 
监督 学 习 的 训练 数据 采用 有 标号 和 无 标号 的 样 例 。 如 后 续 章 节 所 讨论 的 ， 半 监督 学 习 最 大 的 挑 
战 在 于 当 处 理 大 规模 模式 分 类 问题 时 如 何 设计 学 习 系 统 ， 使 其 运行 过 程 是 实际 可 行 的 。 

强化 学 习 处 于 监督 学 习 和 无 监督 学 习 之 间 。 它 通过 学 习 系 统 和 环境 之 间 的 持续 交互 而 工 
作 。 学 习 系统 提供 行动 并 且 从 环境 对 该 行动 的 反应 中 学 习 。 例 如 ， 从 效果 上 讲 ， 监 督学 习 中 教 
师 的 角色 在 这 里 被 一 个 评价 值 所 取代 ， 而 这 个 评价 值 被 综合 进 了 机 器 学 习 中 。 


注释 和 参考 文献 


1. 神经 网 络 的 定义 来 自 Aleksander and Morton (1990). 

2. 有 关 大 脑 计 算 方面 可 读 狂 的 材料 可 参看 Churchland and Sejnowski (1992). 更 详细 的 讲述 可 参看 Kandel 等 
(1991), Shepherd (1990), Kuffler 等 (1984) 和 Freeman (1975), 

3. 关于 尖峰 和 尖峰 神经 元 的 细节 可 参看 Rieke (1997). 关于 单个 神经 元 的 计算 和 信息 处 理 能 力 的 生物 物理 
学 观点 ， 可 参看 Koch (1999). 

4. 关于 sigmoid 函数 和 相关 问题 的 全 面 叙述 可 参看 Mennon 等 (1996), 

5. logistic 函数 ， 或 更 精确 地 说 logistic 分 布 函 数 ， 其 命名 来 自 见于 大 量 文献 中 的 深奥 的 “logistic HKE”. A 
用 适当 的 度量 单位 ， 假 定 所 有 的 增长 过 程 可 表示 为 logistic 分 布 函数 


1 
Ft) = We 


其 中 上 代表 时 间 ，c 和 8B 为 常数 。 

6. 根据 Kuffler 等 (1984)，“ 接 受 域 ”(receptive field) 这 个 术语 最 早 是 由 Sherrington (1906) 创造 的 ， 并 被 
Hartline (1940) 重新 引入 。 在 视觉 系统 环境 下 ， 神 经 元 的 接受 域 是 指 视网膜 曲面 上 由 光 所 引起 的 神经 元 放 
电 的 限制 区 域 。 

7. 权 值 共享 技术 最 早 在 Rumelhart 等 (1986b) 中 描述 。 
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Neural Networks and Learning Machines, 3E 


Rosenblatt 感 知 器 


本 章 组 织 

感知 器 在 神经 网 络 发 展 的 历史 上 占据 着 特殊 位 置 : 它 是 第 一 个 从 算法 上 完整 描述 的 神经 网 
络 。 它 的 发 明 者 人 Rosenblatt 是 一 位 心理 学 家 。 在 20 世纪 60 年 代 和 70 年 代 ， 受 感知 器 的 启发 ， 
工程 师 、 物 理学 家 以 及 数学 家 们 纷纷 投身 于 神经 网 络 各 个 不 同方 面 的 研究 。 更 值得 一 提 的 是 ， 
尽管 在 1958 年 Rosenblatt 关于 感知 器 的 论文 就 首次 发 表 了 ， 感 知 器 (以 本 章 所 讲述 的 最 基本 
形式 ) 在 今天 依然 是 有 效 的 。 
本 章 分 为 如 下 部 分 : 

1.1 革 详 述 神经 网 络 的 形成 阶段 ， 追 溯 1943 年 McCulloch 和 Pitts 的 开创 性 工作 。 

1.2 节 介绍 Rossenblatt 感知 器 的 最 基本 形式 。 然 后 在 1. 3 节 讨 论 感知 性 收敛 定理 。 这 一 
定理 证 明了 当 感 知 器 作为 线性 可 分 模式 分 类 器 的 时 候 在 有 限 数目 时 间 步 下 是 收敛 的 。 

1.4 节 建 立 高 斯 环境 下 感知 器 和 贝 叶 斯 分 类 器 之 加 的 关系 。 

1.5 节 通 过 实验 来 说 明 感 知 器 的 模式 分 类 能 力 。 , 

LE 节 引 入 感知 器 代价 函数 ， 在 此 基础 上 展开 讨论 ,为 推导 感知 器 收敛 定理 的 批量 版 本 
铺路 。 

本 章 以 1.7 节 的 总 结 和 讨论 作为 结束 。 


1.1 58 


在 神经 网 络 的 形成 阶段 (1943 一 1958)， 一 些 研究 者 做 出 了 开拓 性 的 贡献 : 

e McCulloch and Pitts (1943) 引入 神经 网 络 的 概念 作为 计算 工具 。 

。 Hebb (1949) 提出 自 组 织 学 习 的 第 一 个 规则 。 

。 Rosenblatt (1958) 提出 感知 器 作为 有 教师 学 习 〈 即 监督 学 习 ) 的 第 一 个 模型 。 

McCulloch-Pitts 关于 神经 网 络 的 论文 所 产生 的 重要 影响 在 导言 中 已 经 做 了 充分 阐述 。 
Hebb 学 习 的 概念 在 第 8 章 中 将 会 做 比较 详细 的 讨论 。 在 本 章 中 我 们 讨论 Rosenblatt 感知 器 。 

感知 器 是 用 于 线性 可 分 模式 〈 即 模式 分 别 位 于 超 平面 所 分 隔 开 的 两 边 ) 分 类 的 最 简单 的 神经 网 
络 模 型 。 基 本 上 它 由 一 个 具有 可 调 突 触 权 值 和 偏 置 的 神经 元 组 成 。 用 来 调整 这 个 神经 网 络 中 自由 参 
数 的 算法 最 早出 现在 Rosenblatt (1958，1962) 提出 的 用 于 其 脑 感 知 模型 的 一 个 学 习 过 程 中 。 事 实 
E, Rosenblatt 证 明了 当 用 来 训练 感知 器 的 模式 〈 向 量 ) 取 自 两 个 线性 可 分 的 类 时 ， 感 知 器 算法 是 
收敛 的 ， 并 且 决 策 面 是 位 于 两 类 之 间 的 超 平面 。 算 法 的 收敛 性 证 明 称 为 感知 器 收敛 定理 。 

建立 在 一 个 神经 元 上 感知 器 的 模式 分 类 被 限制 为 只 能 完成 两 类 〈 假 设 ) 的 模式 分 类 。 通 过 
扩展 感知 器 的 输出 (计算 ) 层 可 以 使 感知 器 包括 不 止 一 个 神经 元 ， 相 应 地 可 以 进行 多 于 两 类 的 
分 类 。 但是， 只 有 这 些 类 是 线性 可 分 时 感知 器 才能 正常 工作 。 重 要 的 是 ， 当 感知 器 的 基本 理论 
用 于 模式 分 类 器 时 ， 只 需 考 虑 单个 神经 元 的 情况 。 将 这 个 理论 推广 到 多 个 神经 元 是 不 重要 的 。 


1.2 感知 器 


Rosenblatt 感知 器 建立 在 一 个 非 线性 神经 元 上 ， 即 神经 元 的 McCulloch-Pitts 模型 。 回 忆 
下， 导言 里 讲 过 这 种 神经 元 模型 由 一 个 线性 组 合 器 和 随后 的 硬 限 幅 器 〈 执 行 一 个 符号 函数 ) 
组 成 ， 如 图 1. 1 所 示 。 神经 元 模型 的 求 和 节点 计算 作用 于 突 触 上 的 输入 的 线性 组 合 ， 同时 也 合 
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并 外 部 作用 的 偏 置 。 求 和 节点 计算 得 到 的 结果 ， 也 就 是 诱导 局 部 域 ， 被 作用 于 硬 限 幅 器 。 相 应 
地 ， 当 硬 限 幅 器 输入 为 正 时 ， 神 经 元 输出 十 1， 反 
之 则 输出 一 1。 

在 图 1. 1 的 符号 流 图 模型 中 ， 感 知 器 的 突 触 权 





值 记 为 www 。 相 应 地 ， 作 用 于 感知 器 的 “输入 ‘ity 
He AGW toto y ty 。 外 部 作用 偏 置 记 为 5 从 
这 个 模型 我 们 发 现 硬 限 幅 器 输入 或 神经 元 的 诱导 局 
部 域 是 图 1.1 感知 器 的 符号 流 图 
v= See (1.1) 


感知 器 的 目的 是 把 外 部 作用 刺激 zi sib oth 正确 分 为 @ Me 两 类 。 分 类 规则 是 : 如 果 感 知 
器 输出 y 是 十 1 就 将 rz，…zw 表示 的 点 分 配给 类 %;， 如 果 感 知 器 输出 y 是 一 1 则 分 配给 
类 。 
为 了 进一步 观察 模式 分 类 器 的 行为 ， 一 般 要 在 x; 
m 维 信和 号 空间 中 画 出 决策 区 域 图 ， 这 个 空间 是 由 m 
个 输入 变量 zl ,zx;,… ,zn 所 张 成 的 。 在 最 简单 的 感 
知 器 中 存在 被 一 个 超 平 面 分 开 的 两 个 决策 区 域 ， 此 
超 平面 定义 为 
Say bb S08 (1. 2) 


对 两 个 输入 变量 x, 和 zz 的 情形 已 在 图 1. 2 中 做 了 
说 明 ， 图 中 的 决策 边界 是 直线 。 位 于 边界 线 上 方 的 
点 (xz1，Xs) FAG 类 ,位 于 边界 线 下 方 的 点 
(ris T) FAG 类 。 注 意 这 里 偏 置 5 的 作用 仅仅 











决策 边界 
是 把 决策 边界 从 原点 移 开 o wx, +wx, +b=0 
感知 器 的 突 触 权 值 WI 9 W2 9 °° 9 Wn 可 以 通过 多 à 
图 1.2 两 维 两 类 模式 分 类 问题 决策 边界 超 平 
次 迭代 来 调整 。 对 于 自 适应 性 可 以 使 用 通称 为 感知 面 的 实例 (在 这 个 例子 中 超 平面 是 一 
器 收敛 算法 的 误差 修正 规则 ， 下 面 会 讨论 。 条 直线 ) 


1.3 感知 器 收敛 定理 


为 了 导出 感知 器 的 误差 修正 学 习 算 法 ,我 们 发 现 利用 图 1. 3 中 的 修正 信号 流 图 更 方便 。 在 
这 个 与 图 1.1 中 的 模型 等 价 的 模型 中 ， 偏 置 OC) BE ME ctl 
当 作 一 个 等 于 十 1 的 固定 输入 量 所 驱动 的 突 触 权 值 。 和 入 
我 们 因此 定义 (m 十 1) X1 个 输入 向 量 





二 [和 站 输入 4 ; mee 
这 里 ”表示 使 用 算法 时 的 迭代 步 数 。 相 应 地 定义 Wn 
(m 十 1) X1 个 权 值 向 量 Yn 口 “ 线 性 组 合 器 
wn) = [byw (n) sw (n) s We Cn) J 图 1.3 等 价 的 感知 器 信号 流 图 ; 为 清楚 起 见 省 
因此 ， 线 性 组 合 器 的 输出 可 以 写成 紧凑 形式 略 了 对 时 间 的 依赖 性 
vln) = ony = WwW’ (n)x(n) (1. 3) 


这 里 ， 第 一 行 中 的 wo 《nn) 对 应 于 i=0, 表示 偏 置 b. 对 于 固定 的 ns 等 式 wx 一 0 在 以 Li X23", 
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xn 为 坐标 的 m 维 空间 中 〈 对 某 些 给 定 的 偏 置 ) 所 作 的 图 定义 了 一 个 超 平面 ， 它 就 是 两 个 不 同 
输入 类 之 间 的 决策 面 。 

为 了 使 感知 器 能 够 正确 地 工作 ，4@ Me 两 个 类 必须 是 线性 可 分 的 。 这 意味 着 待 分 类 模式 
必须 分 离 得 足够 开 以 保证 决策 平面 是 超 平 面 。 这 个 要 求 对 两 维 感知 器 的 情形 如 图 1.4 所 示 。 在 
图 1. 4a 中 两 个 类 6 MO 分 离 得 足够 开 ， 使 得 我 们 能 画 一 个 超 平面 (在 此 例 中 是 一 条 直线 ) 作 
为 决策 边界 。 但 是 ， 假 如 允许 两 个 类 @ Me PEKE, WE 1. 4b 所 示 ， 它 们 就 变 成 非 线 性 可 
分 的 ， 这 种 情况 就 超出 了 感知 器 的 计算 能 力 。 


“决策 边界 





RE, 


a) b) 
图 1.4 a) 一 对 线性 可 分 离 模式 ; bd 一 对 非 线性 可 分 离 模 式 


假设 感知 器 的 输入 变量 来 源 于 两 个 线性 可 分 类 。 设 % HVA Hx, (1), x (2)，… 中 属 
FRE 的 向 量 所 组 成 的 子 集 ，3 表示 训练 向 量 xs (1)，xs (2)，… 属 于 类 % 的 向 量 所 组 成 的 子 
Ro W MH 的 并 是 整个 训练 集 光 。 给 定向 量 集 X% 和 3z 来 训练 分 类 器 ， 训 练 过 程 涉及 对 权 值 向 
E w 的 调整 使 得 两 个 类 @, 和 @ 线性 可 分 。 也 就 是 说 ， 存 在 一 个 权 值 向 量 w 具有 以 下 性 质 

wx>0 对 属于 类 % 的 每 个 输入 向 量 x 

wx<0 对 属于 类 %, 的 每 个 输入 向 量 x 
在 式 (1.4) 的 第 二 行 中 当 wx=0 时 我 们 随意 地 选择 输入 向 量 x 属于 类 人 。 给 定 训练 向 量子 集 %i 
和 3; ， 感 知 器 的 训练 问题 就 是 找到 一 个 权 值 向 量 w 满足 式 (1.4) 中 的 两 个 不 等 式 。 

使 基本 感知 器 的 权 值 向 量 自 适应 的 算法 现在 可 以 用 以 下 公式 来 表述 : 

1. 假如 训练 集合 的 第 n TREA x(n) 根据 算法 中 的 第 n KIER AA E wo 能 正确 分 
类 ， 那 么 感知 器 的 权 值 向 量 按 下 述 规则 不 做 修改 : 

wn 十 1) 二 wn) ”假如 wix(n) >0O Ax) BF 
wn 十 1) =w) ide w'x(n) <0 H x(n) 属于 类 人 
2. 否则 ， 感 知 器 的 权 值 向 量 根据 以 下 规则 进行 修改 : 
wn 二 1) = win) — y(n) x(n) 假如 wi (n) x(n) > 0 E x(n) BT RE 
wln 十 1) = wn) + y(n) x(n) fi ew? (mn) x(n) <0 A x(n) BT KE 

BSD RRR y(n) 控制 着 第 n 次 迭代 中 作用 于 权 值 向 量 的 调节 。 

RU D= g>, AE wy 是 与 迭代 次 数 n 无 关 的 常数 ， 我 们 有 一 个 感知 器 的 固定 增 量 自 适 
应 规则 (fixed-increment adaptation rule) 。 

接 下 来 首先 证 明 当 7 一 1 时 固定 增 量 自 适 应 规则 的 收敛 性 。 很 明显 7 的 具体 值 并 不 重要 ， 
RECEM. 741 时 的 值 不 影响 模式 可 分 性 而 仅仅 改变 模式 向 量 的 大 小 。 对 于 可 变 yd iH 
情况 稍 后 考虑 。 

感知 器 收敛 定理 : 的 证 明 针 对 初始 条 件 w(0) 二 0。 假 设 对 7 二 1,2,…,w (mn) x(n) <0, A 
人 向 量 x(n) 属 于 子 集 %; 。 即 ， 因 为 式 (1.4) 的 第 二 个 的 条 件 不 满足 ， 感 知 器 就 不 能 正确 地 对 向 


(1. 4) 


(1. 5) 


(1. 6) 
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量 x(1) x(2), ，… 进 行 分 类 。 在 常量 Im) 一 1 的 情况 下 ， 可 以 利用 式 (1. 6) 的 第 二 行 ， 有 





Wn 十 1) =w) txin) x(n) 属于 类 人 (1.7) 
给 定 初始 条 件 w(0) 王 0， 可 以 选 代 求 解 这 个 关于 wn 十 1) 的 方程 而 得 到 结果 
win +1) = x(1) + x(2) +e 4+ x(n) (1. 8) 


因为 假设 类 6@ Me 为 线性 可 分 的 ， 因 此 对 属于 子 集 % 的 向 量 xl), x(n) 的 不 等 式 方程 w x 
(n)>0 存在 一 个 解 w,。 对 固定 解 w。， 可 以 定义 一 个 正 数 a, 

a 一 min wo x(n) (1. 9) 
因此 ， 在 式 (1.8) 两 边 同 时 乘 以 行 向 量 ws ， 我 们 有 

wiwlan +1) = wix(1) + wx) + + we x(n) 

所 以 ， 依 据 等 式 (1. 9) 中 的 定义 ， 我 们 有 

wITw(a t 1) > ne (1. 10) 
下 面 利 用 众所周知 的 Cauchy-Schwarz 不 等 式 。 给 定 两 个 向 量 w 和 w(z 十 1)，Cauchy-Schwarz 
不 等 式 表述 为 

lw lwat D I? S [wiwa DT 《1. 11) 
这 里 。 | 表示 所 包含 变 元 向 量 的 欧 几 里 得 范 数 ， 内 积 wiwat DERE. ARC. 10) 得 到 
[wrwCn 十 1) 了 大 于 或 等 于 wa*。 从 式 (1.11) 我 们 注意 到 上 w. 上 ?wiz 十 1) le ?大 于 或 等 于 
Lw want DF. RERA 
lw. lwat Dl 


或 等 价 地 有 
| wan + 1) 上 > (1. 12) 
下 面 我 们 遵循 另 一 种 发 展 路 线 。 特 别 地 ， 可 以 把 式 (1, 7) 改 写 为 如 下 形式 
wlk +1) = w(k) x(k), 一 1 20， x(k) E Hı (1. 13) 
通过 对 式 (1. 13) 两 边 同 取 欧 几 里 得 范 数 的 平方 ， 得 到 
| wok +1) |? = |] we) |]? + Il x(a) | 十 2w (A) xR) (1. 14) 


(AE, wR) x(2) <0, AM SRC. 14) 中 得 到 
Il wk +1) |}? < |] wR) |]? + |] x \| ? 





或 等 价 于 
| wR +1) |]? — I whe) 2 < | xR Ps k= leon (1. 15) 
fl k= 1,…,n 情况 下 的 这 些 不 等 式 相 加 ， 结合 所 假设 的 初始 条 件 WOO) 二 0， 我 们 得 到 不 等 式 
wend) WE < SD fl xCey lp (1. 16) 


这 里 8 是 一 个 正 数 ， 定 义 为 
B= max | x) |]? (1.17) 
式 (1.16) 表 明 权 值 向 量 wz 十 1) 的 欧 几 里 得 范 数 平方 的 增长 至 多 只 能 和 迭代 次 数 ”是 线性 关系 。 
当 郊 有 足够 大 的 值 时 ， 式 (1. 16) 的 第 二 个 结果 显然 与 式 (1. DHARAT. KRE R 
们 可 以 说 不 能 大 于 某 个 值 nwor， 值 wwe 使 得 式 (1. DAAA. 16) 的 等 号 者 成立。 这 里 ，nwmx 是 
下 面 方程 的 解 : 


Iw. e "mes 





给 定 解 向 量 Wos 解 出 Tmax 9 我 们 求 出 


32 .第 1 章 Rosenblatt 感知 器 


2 
Nex 一 &Lw I" (1. 18) 


这 样 我 们 证 明了 对 所 有 的 2，7(z) 王 1， 且 w(0) 一 0， 如 果 解 向 量 w 存在 ， 那 么 感知 器 权 值 的 适 
应 过 程 最 多 在 ms 次 迭代 后 终止 。 从 式 (1.9)、(1.17) 和 (1. 18) 注意 到 w 或 mo 的 解 并 不 唯一 。 
现在 可 以 叙述 感知 器 的 固定 增 量 收敛 定理 (Rosenblatt, 1962): 


设 训 练 向 量 的 子 集 NR 和 Ns 是 线性 可 分 的 ， 感 知 器 的 输入 来 自 这 两 个 子 集 。 感 知 器 在 m 次 
迭代 后 在 如 下 意义 下 收 仇 : 
w(n,) = win, +1) = wln, +2) = 
是 对 mm< 扫 mms 的 一 个 解 向 量 。 


下 面 考虑 当 y(n) 变化 时 ， 单 层 感知 器 自 适应 的 绝对 误差 修正 过 程 。 特 别 地 ， 设 y(n) 是 

满足 下 式 的 最 小 整数 ， 
nx (n) x(n) > |w (nm) x(n) | 

利用 这 个 过 程 我 们 发 现 如 果 第 ERRAR wW DOD FERS ER WAR ntl KK 
RE wTCn 十 1)x(n) 符 号 就 会 是 正确 的 。 这 说 明 如 果 在 第 nn 次 迭代 Ww Cn)x(n) 有 符号 错误 ， 可 
以 通过 设 x(n 十 1) 二 x(n) 来 改变 第 n 十 1 次 迭代 时 的 训练 次 序 。 换 句 话 说， 将 每 个 模式 重复 哇 
现 给 感知 器 直到 模式 被 正确 分 类 。 

注意 当 w(0) 的 初始 值 不 为 零 时 ， 仅 仅 是 导致 收敛 需要 的 迭代 次 数 或 增加 或 减少 ， 这 依赖 
于 w(0) 与 解 wo 的 相关 程度 。 无 论 w(0) 的 值 是 多 少 ， 感 知 器 都 可 以 保证 是 收敛 的 。 

在 表 1. 1 中 我 们 对 感知 器 收敛 算法 做 出 概述 〈Lippmann，1987) 。 在 此 表 第 三 步 计算 感知 
器 的 实际 响应 中 使 用 的 记号 sgn), PRAF AA (signum function): 


十 1 如果 vw 二 0 
一 (1.19) 
sgn(v) _1 如 果 二 0 
这 样 可 以 把 感知 器 的 量化 响应 yn) 表示 为 以 下 的 简洁 形式 : 
y(n) = sgn[w’ (n)x(n)|] (1. 20) 


表 1.1 感知 器 收敛 算法 概述 


变 其 和 参数 : 
x(n) 二 m 十 1 维 输 入 向 量 
= [4 Lexi (nd a (0) s sEm D I? 
wn) 一 六 十 1 维权 值 向 量 
= [brw (n) we (n) att Wm Cn) JT 
b= 偏 置 
yn) = 实际 响应 (量化 的 》 
din) 一 期望 响应 
1 一 学 习 率 参数 ,一 个 比 1 小 的 正常 数 
, 初始 化 。 设 w(0) 一 0。 对 时 间 步 n 一 1，2，… 执 行 下 列 计算 。 
. 激活 。 在 时 间 步 x， 通过 提供 连续 值 输入 向 其 x(n) 和 期 望 响 应 d(x) 来 激活 感知 器 。 
. 计算 实际 响应 。 计 算 感 知 器 的 实际 响应 : 


wn e 


yn) = sgn[w i Cn) x(n) ] 
这 里 sgn(*) 是 符号 函数 。 
4. 权 值 向 量 的 自 适应 。 更 新 感知 器 的 权 值 向 基 
wa + 1) = wD + gidon) — y(n) ]x(n) 





这 里 
din) = 十 1 #x()) BFRG 
ue 上， 车 x(n) AFŽ% 


5. 继续 。 时 间 步 4 增加 1， 返 回 第 2 步 。 
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注意 输入 向 量 x(n) 是 (m 十 1) X1 向 量 ， 它 的 第 一 个 元 素 在 整个 计算 中 国定 为 十 1。 相 应 
w, BUA WO) On tl) XI 向 量 ， 它 的 第 一 个 元 素 等 于 偏 置 65。 表 1.1 中 的 另 一 个 要 点 
E: 我 们 引入 一 个 量化 期 望 响应 4(n)， 定 义 为 
+1 若 x(n) BFR 
d(n) = -1 车 x(n) BERG (1. 21) 
因此 ， 权 值 向 量 won) 和 的 自 适 应 是 以 误差 修正 学 习 规 则 (error-correction learning rule) 形式 
下 的 累加 : 
wint D = wn) + dW) — yln) |x(n) (1. 22) 
这 里 了 是 学 习 率 参数 ， 差 dm 一 y(2) 起 误差 信号 的 作用 。 学 习 率 参数 是 正常 数 ， 且 0 失 7 短 1。 
当 在 这 个 区 间 里 给 7 赋 一 个 值 时 ， 必须 记 住 两 个 互相 冲突 的 需求 (Lippmann, 1987): 
。 平均 ， 过 去 输入 的 平均 值 提供 一 个 稳定 的 权 值 估计 ， 这 需要 一 个 较 小 的 7。 
。 快速 自 适应 ， 相对 于 产生 输入 向 量 x 的 过 程 的 加 有 分 布 的 实时 变化 ， 快速 自 适 应 需要 
较 大 的 7。 


1.4 高 斯 环境 下 感知 器 与 贝 叶 斯 分 类 咒 的 关系 


感知 器 与 一 类 通称 为 贝 叶 斯 分 类 器 的 经 典 模式 分 类 器 具有 一 定 联系 。 在 高 斯 环境 下 ， 贝 叶 
斯 分 类 器 退化 为 线性 分 类 器 。 这 与 感知 器 采用 的 形式 是 一 样 的 。 但 是 ， 感知 器 的 线性 特性 并 不 
是 由 于 高 斯 假设 而 具有 的 。 这 一 节 我 们 研究 这 种 联系 ， 并 借 此 深信 研 究 感知 器 的 运行 。 首 先 简 
单 复 习 一 下 贝 叶 斯 分 类 器 。 

贝 叶 斯 分 类 器 
在 贝 叶 斯 分 类 器 和 贝 叶 斯 假设 检验 过 程 中 ， 我 们 最 小 化 平均 风险 ( 记 为 贸 )。 对 两 类 问题 
( 记 为 类 @ MAS), Van Trees (1968) 定义 的 平均 风险 为 : 
R=cnps} px (x|@ dx + cnr] px(x|@)dx 
' ‘ (1. 23) 
ten pif px(x|G dx caps| px(x|& dx 


这 里 各 项 的 定义 如 下 : 
b “MAME x( 表 示 随 机 向 量 和 的 实现 值 ) 取 自 子 空间 %: 的 先 验 概率 ， 
这 时 ;一 1,2 且 入 十 加 一 1。 
cj =~4RG 是 真实 的 类 ( 即 观察 向 量 工 是 取 自 子 空间 3 ) 时 决策 为 由 
FRM 代表 的 类 和 HA. GP) 一 1,2。 
px(x | @) = hayley BX 的 条 件 概率 密度 函数 ,假设 观察 向 量 x 取 自 子 空间 %; ， 
i= 1,2, 
RO 23) 右 边 的 头 两 项 表示 正确 决策 〈 即 正确 分 类 )， 后 面 两 项 代表 不 正确 决策 〈 即 错误 分 
类 ) 。 每 个 决策 通过 两 个 因子 乘积 加 权 : 作出 决策 的 代价 和 发 生 的 相对 频率 〈 即 先 验 概 率 )。 
我 们 的 目的 是 确定 一 个 最 小 化 平均 风险 的 策略 。 因为 需要 作出 这 样 的 决策 ， 在 全 部 观察 空 
间 & 中 每 个 观察 向 量 x 必须 被 设 定 或 者 属于 8%: 或 者 属于 gz 。 因此 
多 = X +e: (1. 24) 
相应 地 ， 可 以 把 式 (1. 23) 改 写 为 等 价 的 形式 : 
R =cnp f, px(x|@dx ten bo| px x | ) dx 
| (1. 25) 
+ capi] ， px Cx dx + cupal, px (x|& ) dx 


x 
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这 里 cu<ca 且 cs<ca 。 现 在 注意 到 下 述 事实 : 
| xalQ dx = | px (xl @) dx =1 (1. 26) 
因此 ， 式 (1. 25) 简 化 为 : 
R = cn pı cezp: 4 Í, Cp: lciz — Co.) px (x |) — pı Cen 一 ci)pxCxG@)]dx (L. 27) 


AA. 27) 右 边 的 头 两 项 代表 一 个 固定 代价 。 因 为 需要 最 小 化 平均 风险 锡 ， 我 们 从 式 (1. 27) 得 到 
以 下 最 优 分 类 的 策略 : 

1. 所 有 使 被 积 函数 〈 即 方 括号 里 的 表达 式 ) 为 负 的 观察 向 量 z WERFT EL 
类 @ )， 因 为 此 时 积分 对 风险 唤 有 一 个 负 的 贡献 。 

2. 所 有 使 被 积 函 数 为 正 的 观察 向 量 x 的 值 都 必须 从 子 空间 %, 中 排除 〈 即 分 配给 类 @&)， 因 
为 此 时 积分 对 风险 名 有 一 个 正 的 贡献 。 

3. 使 被 积 函 数 为 零 的 z 的 值 对 平均 风险 撤 没 有 影响 ， 因 此 可 以 任意 分 配 。 假 设 这 些 点 分 配 
SF AS HH, CHIE, ) 。 

在 这 个 基础 上 ， 写 出 贝 叶 斯 分 类 器 公式 ， 


假如 条 件 





Pi (ca 一 ca)pDxCx 6@) > fr Cow — cn) px (x |) 
BR, CME AS x PRAT EMAL, (PRE), SMiex PRAM (HK). 


为 了 简化 起 见 ， 定 义 


— px(x|€) 
AOD = Pre (1. 28) 
和 
— alcn — ca) 
£ Pi Cea — cn) (1. 29) 


E ACx) 是 两 个 条 件 概 率 密 度 函 数 的 比 ， 被 称 为 似 然 比 〈likelihood ratio), # € KW Heo Hh B 
值 。 注 意 ACx) 和 上 都 是 恒 正 的 。 根 据 这 两 个 量 ， 可 以 把 贝 叶 斯 分 类 重新 表述 为 : 


假如 对 一 个 观察 向 量 Xx， 其 似 然 比 A(%) 比 阅 值 EE 大， 就 把 x* 分 配给 类 %1 ， 反 之 ， 分 配给 类 人 。 


图 1. 5a 是 一 个 描绘 贝 叶 斯 分 类 器 的 模块 图 。 此 模块 图 的 要 点 是 两 方面 的 : 
1. 进行 贝 叶 斯 分 类 器 设计 的 数据 处 理 被 完全 限制 在 似 然 比 A(x) 的 计算 中 。 
2. 此 计算 与 分 配给 先 验 概 率 的 值 和 决策 过 程 中 的 代价 是 完全 无 关 的 。 这 两 个 量 仅仅 影响 阔 值 <。 








输入 向 量 RAGE, 
A 
e 似 然 比 计算 机 | ”| ”比较 加 sesh Ri 
HKG, 
č 
a) 
输入 向 量 如 果 logA(x)>log& 
e EA agi 
-a €, 
loge 
b) 


图 1.5 贝 叶 斯 分 类 器 的 两 个 等 价 模型 : ad 似 然 比 检验 ; b) 对 数 似 然 比 检验 
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从 计算 的 观点 来 看 ， 我 们 发 现 使 用 似 然 比 的 对 数 比 使 用 似 然 比 自身 方便 得 多 。 人 允许 这 样 做 
有 两 个 理由 。 首 先 ， 对 数 是 单调 函数 。 其 次 ， 似 然 比 AGO 和 阔 值 都 是 正 的 。 因 此 ， 贝 叶 斯 
分 类 器 可 以 用 如 图 1. 5b 所 示 的 等 价 形式 来 实现 。 很 显然 ， 第 二 个 图 中 柑 人 的 检验 被 称 为 对 数 
似 然 比 检验 。 
高 斯 分 布下 的 贝 叶 斯 分 类 器 


现在 考虑 一 个 在 高 斯 分 布下 两 类 问题 的 特殊 情形 。 随 机 向 量 X 的 均值 依赖 于 X 是 属于 类 @ 
还 是 色 ， 但 和 的 协 方差 阵 对 两 类 都 是 一 样 的 。 也 就 是 说 : 





EE : ELX] =u 

E(X — pm) (X—pd7] = C 
类 人 ， ECX] = H: 

FLCX 一 Re)( 和 一 hua)7] =C 


DAZE C RAP AN, RBRSR ARE 和 类 % 的 样本 是 相关 的 。 假 设 C 是非 奇 异 的 ， 
这 样 它 的 道 矩阵 C 存在 。 
在 这 个 背景 下 可 以 把 和 的 条 件 概率 密度 函数 表示 为 多 变量 高 斯 分 布 ; 





o 1 1 Tmar o 
px (xX|@) ca me*p( 7a "Cx Wi))si=1,2 (1,30) 
这 里 m 是 观察 向 量 x MAR, 
进一步 假设 : 
1. 两 类 @ FIG, 的 概率 相同 : 
Pi = pz = + a. 31) 
2. 错误 分 类 造成 同样 的 代价 ， 正 确 分 类 的 代价 为 零 : 
c = cu 和 cn 一 cz 一 0 (1. 32) 


我 们 现在 有 了 对 两 类 问题 设计 贝 叶 斯 分 类 器 的 信息 。 具 体 地 讲 ， 将 式 (1. 30) 代 入 式 (1. 28) 
并 取 自 然 对 数 ， 我 们 得 到 《〈 简 化 后 ) : 


logAG =— Cx pT Oe pd OO pe) CC pe) 


(1. 33) 
= (m — m) Cx 5 HC pe 一 RICE) 
把 式 (1. IDAR. 32) 代 人 式 (1. 29) 并 取 自 然 对 数 ， 得 到 
logé = 0 (1, 34) 
RO IDM. 34) 表 有 明 当 前 问题 的 贝 叶 斯 分 类 器 是 线性 分 类 器 ， 如 关系 式 
y=wxtb (1. 35) 
所 示 ， 这 里 
y = logA(x) (1. 36) 
w= Cp — pe) (1. 37) 
b= Fw he — pC’) (1. 38) 


出 
更 进一步 ， 分 类 器 由 一 个 权 值 向 量 w 和 偏 置 5 的 线性 组 合 Riy 


器 构成 ， 如 图 1.6 所 示 。 
在 式 (1.35) 的 基础 上 ， 可 以 把 对 两 类 问题 的 对 数 似 然 
比 检验 描述 如 下 : . 图 1.6 高 斯 分 类 器 的 信和 号 流 图 
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假如 线性 组 合 器 (包括 偏 置 b) 的 输出 是 正 的 ， 把 观察 向 量 X 分 配给 类 @。 否 则 ， 把 它 分 
配给 类 人 。 


这 里 描述 的 高 斯 环境 下 贝 叶 斯 分 类 器 的 运行 与 感知 器 是 类 似 的 ， 因为 它们 都 是 线性 分 类 
器 ; 请 见 式 (1.1) 和 式 (1. 35)。 但 是 ， 在 它们 之 间 还 存在 一 些 需要 仔细 检查 的 细微 而 重要 的 区 
Hj (Lippmann, 1987): 

。 感知 器 运行 的 前 提 是 待 分 模式 是 线性 可 分 的 。 导出 贝 叶 斯 分 类 器 过 程 中 所 假设 的 两 个 

高 斯 分 布 的 模式 当然 是 互相 重合 的 ， 因 此 它们 不 是 可 分 的 。 重症 的 程度 是 由 均值 向 量 
p 和 pz 以 及 协 方差 矩 阵 C 所 决定 。 重合 的 性 质 如 图 1.7 所 示 ， 这 是 一 个 随机 标量 的 
特殊 情况 〈 即 维 数 m=1). 当 输入 如 图 所 示 是 不 可 分 且 其 分 布 是 重 肆 的 时 候 ， 感 知 器 
收敛 算法 会 出 现 问题 ， 因 为 两 类 间 的 决策 边界 可 能 会 持续 振 功 。 

。 贝 叶 斯 分 类 器 最 小 化 分 类 误差 的 概率 。 这 个 最 小 化 与 高 斯 分 布下 两 类 之 间 的 重合 无 关 。 
例如 ， 在 图 1.7 的 特例 中 ， 贝 叶 斯 分 类 使 决策 边界 总 是 位 于 高 斯 分 布下 两 类 @ AE 的 
交叉 点 上 。 

。 感知 器 收敛 算法 是 非 参 数 的， 这 指 它 没 有 关于 固有 分 布 形式 的 假设 。 它 通过 关注 误 卷 
来 运行 ， 这 些 误 差 出 现在 分 布 重 玖 的 地 方 。 当 输 入 由 非 线性 物理 机 制 产 生 同 时 它们 的 
分 布 是 严重 偏离 而 且 非 高 斯 分 布 的 时 候 ， 算法 将 可 能 工作 得 很 好 。 相 反 ， 贝 叶 斯 分 类 
器 是 参数 化 的 ; 它 的 导出 是 建立 在 决策 边界 
高 斯 分 布 的 假设 上 的 ， 这 可 能 会 限 
制 它 的 适用 范围 。 

。 感知 器 收敛 算法 是 自 适 应 的 且 实 现 ED 
简单 ， 它 的 存储 需求 仅 限于 权 值 集 
合 和 偏 置 。 另 一 方面 ， 贝 叶 斯 分 类 
器 设计 是 固定 的 ; 可 以 使 它 变 成 自 
适应 的 ， 但 代价 是 增加 存储 量 和 更 





高 的 计算 复杂 性 。 类 %， Ke 
图 1.7 两 个 重合 的 一 维 高 斯 分 布 
1.5 计算 机 实验 : 模式 分 类 
本 计算 机 实验 的 目的 包括 两 个 方面 


1) 给 出 双 月 分 类 问题 的 详细 说 明 ， 这 一 问题 将 成 为 本 书 处 理 模式 分 类 实验 部 分 的 基本 原型 ; 
2) 说 明 Rosenblatt 感知 器 算法 对 线性 可 分 模式 正确 分 类 的 能 力 ， 并 说 明 当 线性 可 分 性 不 
满足 时 Rosenblatt 感知 器 会 甬 省 。 
分 类 问题 详细 说 明 
图 1.8 给 出 了 一 对 非 对 称 的 面对面 的 “月 亮 ”。 被 标志 为 “区 域 A” 的 月 亮 是 关于 y - 轴 对 
称 的 ， 而 被 标志 为 “区 域 B” 的 月 亮 被 安置 在 y - 轴 右 边 距 离 半径 7 以 及 < - 轴 下 面 距 离 4 的 地 
方 。 这 两 个 月 亮 具 有 相同 的 参数 ， 
每 个 月 亮 的 半径 ,r = 10 
BAA RARE. w= 6 
将 两 个 月 亮 分 开 的 垂直 距离 d 是 可 调 的 ， 它 是 根据 z - 轴 来 测量 的 ， 如 图 1. 8 所 示 。 
。 增加 4 的 正 值 意味 着 增加 两 个 月 亮 之 间 相 互 分 离 ; 
。 增加 a 的 负 值 意味 着 两 个 月 亮 会 相互 靠近 。 
训练 样本 集 9 是 由 1000 对 数据 点 所 组 成 ， 每 对 数据 点 的 其 中 一 个 是 取 自 区 域 A， 另 一 个 取 自 
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区 域 B， 两 者 都 是 随机 选取 的 。 测 试 样本 集 是 由 2 000 对 数据 点 组 成 的 ， 也 是 以 随机 方式 选取 的 。 











YA 
A me wW men 
4d : ! 
Ei 
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? 
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图 1.8 双 月 分 类 问题 
实验 

这 里 的 实验 所 要 采用 的 感知 器 参数 如 下 所 示 : 

输入 层 大 小 = 2 

权 向 量 大 小 m = 20 

8 一 50; 参 照 式 (1.17) 
学 习 率 参数 y 线性 地 从 10 :下降 到 107°, 

权重 被 初始 化 为 0。 

图 1.9 给 出 了 <4 一 1 时 的 实验 结果 ， 这 相应 于 具有 良好 线性 可 分 性 的 情况 。 图 1. 9a 是 学 习 曲 线 ， 
描画 了 均 方 误差 (MSE) 和 和 迭代 次 数 之 间 的 关系 ; 该 图 显示 出 经 过 三 步 迭 代 算 法 就 收敛 了 。 图 1. 9b 
画 出 了 经 感知 器 算法 训练 后 计算 得 到 的 决策 边界 ， 展 示 了 对 2 000 个 测试 点 良好 的 可 分 离 性 。 
距离 =]， 半 径 =10， 宽 =6 时 利用 感知 器 进行 分 类 
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图 1.9 在 距离 d— 1 时 解 双 月 集合 的 感知 器 : a) 学 习 曲 线 ; b> 测试 结果 
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在 图 1. 10 中 ， 两 个 月 亮 之 间 的 分 离 度 被 设 为 4 二 一 4， 这 个 条 件 破坏 了 线性 可 分 离 性 。 图 
1. 10a 给 出 了 学 习 曲 线 ， 从 学 习 曲 线 的 波动 性 可 知 感知 器 算法 会 持续 波动 ， 意 味 着 算法 的 崩 
省 。 这 一 结果 也 从 图 1. 10b 的 图 中 得 到 了 验证 ， 其 决策 边界 (通过 训练 得 到 的 ) 和 两 个 月 亮相 
交 ， 其 误 识别 率 为 (186/2 000) X100%=9.3%, 
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图 1.10 在 距离 4 一 一 4 时 解 双 月 集合 的 感知 器 : a) 学 习 曲 线 ; b>) 测试 结果 


1.6 批量 感知 器 算法 


K 1.1 所 总 结 的 感知 器 收敛 算法 的 推导 没有 考虑 代价 函数 。 而 且 ， 这 一 推导 集中 于 单 样本 
修正 。 本 节 我 们 将 做 如 下 两 件 事 : 

1. 介绍 感知 器 代价 函数 的 广义 形式 。 

2. 利用 代价 函数 来 构成 感知 器 收敛 算法 的 批量 版 本 。 

我 们 想到 的 代价 函数 是 允许 应 用 梯度 搜索 的 函数 。 具 体 而 言 ， 我 们 定义 如 下 的 感知 器 代价 
函数 

Jw = > (一 wzx) (1. 39) 
xEX 

其 中 多 是 利用 w 作为 其 权 值 向 量 的 感知 器 误 识别 的 样本 x 的 集合 (Duda $, 2001). WRIA 
样本 都 被 正确 识别 ， 那 么 8 为 空 ， 这 种 情况 下 代价 函数 J(w) 为 0。 无 论 如 何 ， 代 价 函 数 J Cw) 
的 一 个 优异 特点 是 这 一 函数 是 关于 权 值 向 量 w 可 微 的 。 因 而 将 JCw) 关 于 w 微分 可 以 产生 梯度 
向 量 : 





VJ(w) = Cx) (1. 40) 
xE% 
其 中 梯度 算 子 为 : 
=f ma 8 4 Sy 
iia E= ’ Dw” m Slaa 


在 最 速 下 降 法 中 ， 算 法 的 每 一 个 时 间 步 对 权 值 向 量 w 的 修正 都 是 在 梯度 向 量 V J Ow 
作用 的 。 相 应 地 ， 算 法 具有 如 下 的 形式 : 
w(n+ 1) = w(n) — gn) V Jw) = win) + nn) > x (1. 42) 


这 包括 了 感知 器 收敛 算法 的 单 样本 修正 版 本 作为 其 特殊 情况 。 而 且 ， 式 (1. 42) 包 含 了 给 定 样本 
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集 x(1)，x(2)，… 来 计算 权 值 向 量 的 批量 感知 器 算法 。 特 别 地 ， 在 时 间 步 x 十 1 对 权 值 向 量 的 
修正 是 通过 根据 权 值 向 量 w(Cz)? 而 误 识别 的 所 有 样本 的 和 而 来 的 ， 而 这 个 和 经 由 学 习 率 参数 
7(n) 的 调整 。 这 一 算法 被 称 为 “批量 ”是 由 于 在 算法 的 每 一 个 时 间 步 ， 一 批 误 识别 样本 被 用 来 
计算 权 值 向 量 的 修正 。 


1.7 小 结 和 讨论 


感知 器 是 一 个 单 层 神 经 网 络 ， 其 操作 是 基于 误差 修正 学 习 的 。 术 语 “ 单 层 ” 用 在 这 里 是 为 
了 表示 网 络 计 算 层 是 由 单个 神经 元 组 成 的 用 于 解决 两 类 的 分 类 问题 。 模 式 分 类 的 学 习 过 程 需要 
经 过 一 定 次 数 的 迭代 然后 终止 。 然 而 ， 为 了 成 功 实现 分 类 ， 这 些 模式 必须 是 线性 可 分 的 。 

感知 器 的 神经 元 使 用 McCulloch-Pitts 模型 。 我 们 很 容易 提出 这 样 一 个 问题 ， 如 果 用 一 个 
sigmoid 型 非 线性 限制 代 兰 硬 限 幅 人 器 ， 感 知 髓 会 不 会 有 更 好 的 表现 ?结果 是 不 管 我 们 使 用 硬 限 
幅 还 是 软 限 幅 作为 神经 元 模型 中 的 非 线 性 源 ， 感 知 器 稳定 状态 的 决策 特征 基本 不 变 ‘Shynk， 
1990; Shynk and Bershad，1991) 。 因 此 我 们 可 以 正式 地 说 只 要 限制 为 由 线性 组 合 器 和 随后 一 
个 非 线 性 元 素 组 成 的 神经 元 模型 ， 不 管 非 线 性 使 用 什么 形式 ， 一 个 单 层 感知 器 都 只 能 在 线性 可 
分 模式 上 进行 模式 分 类 。 

对 于 Rosenblatt 感知 器 的 第 一 个 真正 的 批评 是 由 Minsky and Selfridge (1961) 提出 的 。 
Minsky 和 Selfridge 指出 ，Rosenblatt 定义 的 感知 器 甚至 都 不 能 推广 到 二 进 制 数 的 奇偶 校 验 对 
的 情况 ， 更 不 用 说 完成 一 般 的 抽象 。Rosenblatt 感知 器 的 计算 局 限 后 来 又 在 Minsky 和 Papert 
的 名 著 《 感 知 器 》 中 得 到 了 严格 的 数学 证 明 〈1969 ,1988) 。 在 给 出 一 些 出 色 的 和 非常 详细 的 对 
感知 器 的 数学 分 析 以 后 ，Minsky 和 Papert 证 明 ， 建 立 在 局 部 学 习 例子 基础 上 的 Rosenblatt 感 
知 器 从 本 质 上 无 法 进行 全 局 的 泛 化 。 在 他 们 著作 的 最 后 一 章 ，Minsky 和 Papert 推测 他 们 发 现 
的 Rosenblatt 感知 器 的 局 限 性 对 它 的 变形 更 具体 说 是 多 层 神 经 网 络 也 是 成 立 的 。 下 文摘 录 
自 他 们 著作 (1969) 的 第 13. 2 节 


尽管 (其 至 因为 !) 它 具 有 严重 的 局 限 性 ， 感 知 器 仍然 展示 了 其 自身 的 研究 价值 。 它 有 很 
多 值得 注意 的 特点 ， 它 的 线性 性 ; 它 迷 人 的 学 习 理 论 ; 它 清楚 地 作为 一 类 并 行 计算 范例 的 简单 
性 。 没 有 任何 理由 认为 多 层 感 知 器 仍然 具有 这 些 优点 。 靠 直觉 判断 向 多 层 系 统 推 广 是 不 会 有 好 
结果 的 ， 然 而 ， 证 明 (ASR) 这 一 点 仍 是 一 个 很 重要 的 需要 研究 的 问题 。 


这 个 结论 在 很 大 程度 上 导致 了 一 直 持续 到 20 世纪 80 年 代 中 期 的 对 不 仅 是 感知 器 也 包括 一 
般 神经 网 络 计 算 能 力 的 严重 怀疑 。 

但 是 历史 已 经 证 明 ，Minsky 和 Papert 作出 的 推测 似乎 是 不 太公 正 的 ， 因 为 我 们 现在 已 经 
有 很 多 神经 网 络 和 机 器 学 习 的 高 级 形式 ， 它 们 的 计算 能 力 比 Rosenblatt 感知 器 强 得 多 。 例 如 ， 
第 4 章 讨论 的 反 向 传播 算法 训练 的 多 层 感知 器 ， 第 5 章 讨 论 的 径 向 基 函 数 网 络 ， 第 6 章 讨论 的 
支持 向 量 机 等 ， 都 以 它们 各 自 的 方法 克服 了 单 层 感知 器 的 计算 局 限 性 。 

在 结束 关于 感知 器 的 讨论 时 ， 我 们 可 以 断定 感知 器 是 一 个 用 来 对 线性 可 分 模式 进行 分 类 的 
精致 的 神经 网 络 。 其 重要 性 不 仅仅 在 于 其 历史 价值 ， 也 在 于 其 在 线性 可 分 模式 分 类 方面 的 实际 
价值 。 


注释 和 参考 文献 


l. Rosenblatt 预想 的 原始 感知 器 模型 的 网 络 组 织 (1962) 有 三 种 类 型 的 单元 : 感知 单元 、 联想 单元 和 响应 单 
元 。 感 知 单元 和 联想 单元 之 间 的 连接 有 固定 的 权 值 ， 而 联想 单元 和 响应 单元 之 间 的 连接 具有 变化 的 权 值 。 
联想 单元 被 设计 成 一 个 从 环境 输入 中 抽取 模式 的 预 处 理 器 。 就 仅 关 心 可 变 权 值 而 论 ， Rosenblatt 的 原始 感 
知 器 的 运行 与 只 有 一 个 响应 单元 〈 即 单个 神经 元 ) 的 情况 是 基本 一 致 的 。 
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2. 第 1. 3 节 关 于 感知 器 收敛 算法 的 证 明 遵循 Nilsson (1965) 的 经 典 图 书 。 
习题 


1.1 


证 明 总 结 感知 器 收敛 算法 的 式 (1. 19) 至 式 (1. 22) 是 与 式 (1.5) 和 式 (1. 6) 一 致 的 。 





1.2 假设 图 1.1 中 的 感知 器 信号 流 图 的 硬 限 幅 器 被 如 下 的 sigmoid 非 线性 函数 所 替代 : 
glv) = tanh( =) 
这 里 "是 诱导 局 部 威 。 感 知 器 的 分 类 决策 定义 如 下 : 
如 果 输 出 yoe MMR AE x eTRE, 2E ERRA; 反之 ,XxX 属于 类 。 
证 明 如 此 构造 的 决策 边界 是 一 个 超 平面 。 
1.3 (2) 感知 器 可 以 用 来 执行 很 多 逻辑 函数 。 说 明 它 对 二 进 制 逻 辑 函 数 与 (AND)、 或 (COR) 和 非 (COM- 
PLEMENT) 的 实现 过 程 。 
b 感知 器 的 一 个 基本 局 限 是 不 能 执行 异 或 (EXCLUSIVE OR) 函数 。 解 释 造 成 这 个 局 限 的 原因 。 
1.4 考虑 两 个 一 维 高 斯 分 布 类 @ 和 %@， 它 们 的 方差 都 为 1。 它 们 的 均值 为 
Li 一 一 10 
H: =+ 10 
这 两 个 类 本 质 上 是 线性 可 分 的 。 设 计 一 个 分 类 器 来 分 离 这 两 个 类 。 
1.5 式 (1.37) 和 式 (1.38) 定 义 贝 叶 斯 分 类 器 在 高 斯 环境 下 的 权 值 向 量 和 偏 置 。 当 协 方差 矩阵 C 由 
C=elI 
定义 时 ， 求 此 分 类 器 的 构成 。 这 里 2 是 常数 ,I 是 单位 矩阵 。 
计算 机 实验 
1.6 重复 1.5 节 的 计算 机 实验 ， 但 是 这 一 次 将 图 1. 8 的 两 个 月 亮 放 到 分 隔 边 界 处 ， 即 &=0。 计 算 在 2 000 个 


测试 数据 点 上 由 算法 产生 的 误 识别 率 。 
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Neural Networks and Learning Machines, 3E 
通过 回归 建立 模型 


AAR 
本 章 的 主题 是 如 何 应 用 线性 回归 这 一 画 数 还 近 的 特殊 形式 对 给 定 的 随机 变量 集合 建 模 。 
本 章 的 组 织 如 下 : 





2.1 节 是 引言 ，2.2 节 通 过 描述 线性 回归 模型 的 数学 框架 建立 本 章 余下 部 分 的 基础 。 

2.3 节 导出 线性 回归 模型 参数 向 量 的 最 大 后 验 (maximum a posteriori, MAP) 估计 。 

2.4 节 是 利用 最 小 二 乘法 处 理 参 数 估 计 问 题 ， 并 讨论 这 一 方法 和 贝 叶 斯 方法 之 问 的 关系 。 

2.5 节 再 次 讨论 第 1 章 中 讨论 过 的 模式 分 类 实验 ,这 一 次 利用 最 小 二 乘法 。 

2.6 节 讨 论 模 型 阶 的 选择 问题 。 

2.7 节 讨 论 参数 估计 中 国定 样本 容量 的 推论 ， 包 括 偏 置 -方差 困境 。 

2.8 节 介 绍 用 工具 变量 (instrumental variable) 概念 来 处 理 变量 误差 (errors-in-variables) 
问题 。 

最 后 是 2.9 节 的 小 结 和 讨论 。 
2.1 引言 


建 模 的 思想 在 需要 处 理 统计 数据 分 析 的 每 一 个 学 科 中 都 很 有 有 用。 例如， 假设 给 定 一 个 随机 
变量 集 ， 要 完成 的 任务 是 找到 可 能 存在 于 这 些 变量 之 间 的 关系 ， 如 果 这 种 关系 存在 的 话 。 作 为 
函数 逼近 的 一 种 特殊 形式 ， 回 归 的 典型 方案 如 下 : 

。 对 随机 变量 中 的 一 个 变量 有 着 特别 的 兴趣 ; 这 一 随机 变量 被 称 为 依赖 变量 ,或 者 响应 

(response) 。 

。 剩 下 的 随机 变量 称 为 独立 变量 ， 或 者 回归 量 (regressor)。 它 们 的 作用 是 用 来 解释 或 者 

预测 响应 的 统计 行为 。 

。 响应 对 回归 量 的 依赖 还 包括 一 个 附加 的 误差 项 ， 用 来 说 明 在 对 依赖 程度 公式 化 时 候 的 

不 确定 性 ; 误差 项 称 为 期 望 误差 (expectational error) 或 解释 误差 Cexplanational er- 
ror)， 这 两 个 称呼 是 可 以 相互 替换 的 。 

这 样 的 模型 称 为 回归 模型 (regression model)’, 

回归 模型 有 两 类 : 线性 回归 模型 和 非 线性 回归 模型 。 在 线性 回归 模型 中 ， 响 应 对 回归 量 的 
依赖 是 通过 线性 函数 定义 的 ， 这 使 得 其 统计 分 析 从 数学 上 来 说 是 易 处 理 的 。 另 一 方面 ， 在 非 线 
性 回归 模型 中 ， 依 赖 性 是 由 非 线性 函数 定义 的 ， 因 而 其 数学 分 析 过 程 是 困难 的 。 本 章 将 注意 力 
集中 于 线性 回归 模型 。 在 后 续 章 节 中 将 学 习 非 线性 回归 模型 。 

本 意 对 线性 回归 模型 在 数学 上 的 易 处 理性 是 通过 两 个 途径 来 说 明 的 。 首 先 ， 我 们 利用 贝 叶 
斯 理论 : 来 推导 线性 回归 模型 参数 向 量 的 最 大 后 验 估计 。 然 后 ， 使 用 另 一 个 称 为 最 小 二 来 法 的 
方法 来 解决 参数 估计 问题 ， 而 这 一 方法 是 由 高 斯 在 19 世纪 早期 导出 的 。 接着 我 们 说 明 在 高 斯 
环境 这 一 特殊 情况 下 这 两 个 方法 之 间 的 等 价 性 。 


2.2 线性 回归 模型 : 初步 考虑 


ER 2. 1a 所 示 的 情况 ， 这 里 主要 关注 未 知 随 机 环境 (unknown stochastic environ- 
ment) 。 通 过 应 用 一 组 输入 来 探究 这 一 环境 ， 构 成 回归 量 : 


一 {x 9X2 ,Tm C2. 1) 
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其 中 上 标 表示 和 矩阵 的 转 置 。 环 境 的 输出 结果 用 a 来 表示 ， 构 成 了 相应 的 响应 ， 而 响应 被 假 
设 为 标量 ， 这 仅 是 为 了 表述 的 方便 。 通 常 ， 我 们 不 知道 响应 d 和 回归 量 x 之 间 的 函数 依赖 关 
系 ， 因 而 我 们 提出 一 个 线性 回归 模型 ， 参 数 化 为 : 


d= Swe, +e (2.2) 


其 中 ww, wm 定义 一 组 固定 的 但 未 知 的 参数 ， 意味 着 环境 是 稳定 的 《stationary)。 附 加 
项 es 表示 模型 的 期 望 误差 .表明 对 环境 的 未 知 量 。 图 2. 1b 是 关于 式 (2.2) 所 描述 模型 的 输入 -~ 
输出 行为 的 信号 流 图 。 











Y 
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图 2.1 a) 未 知 稳定 随机 环境 ，b) 环境 的 线性 回归 模型 
利用 和 矩阵 记号 ， 将 式 (2. 2) 重 写 为 下 面 的 紧凑 形式 : 


d=wxt+e (2.3) 
其 中 回归 量 x 由 式 (2. 1) 中 的 元 素来 定义 。 相 应 地 ， 参 数 向 量 Ww 定义 为 
w = Lw 9 Wz 9 °°? swm] (2. 4) 


其 维 数 和 回归 量 x 的 维 数 相同 ;这 一 共同 的 维 数 称 为 模型 阶 (model order), BER wx 是 向 
量 w 和 x 的 内 积 。 

由 于 是 随机 环境 ， 回 归 量 x、 响应 d 以 及 期 望 误差 e。 是 相应 的 随机 向 量 X、 随 机 变量 D 以 
及 随机 变量 E 的 样本 值 〈 即 单 点 实现 ) 。 有 了 这 些 随机 集 作 为 背景 ， 感 兴趣 的 问题 可 以 像 下 面 
这 样 描述 : 

给 定 回归 量 久 和 相应 的 响应 D 的 联合 统计 量 ， 估 计 未 知 的 参数 向 量 w。 


我 们 这 里 所 说 的 联合 统计 量 是 指 下 面 的 统计 参数 集合 : 

。 HAH X 的 相关 矩阵 

。 期 望 响 应 DD 的 方差 

。 回归 景 X 和 期 望 响 应 D 的 互相 关 疝 量 

假设 X 和 记 的 均值 都 为 0。 

第 1 章 中 讨论 了 贝 叶 斯 推论 的 一 个 用 于 模式 分 类 的 重要 方面 。 本 章 将 讨论 贝 叶 斯 推论 的 另 
一 个 用 于 参数 估计 的 方面 。 


2.3 参数 向 量 的 最 大 后 验 估计 
贝 叶 斯 方法 提供 了 对 式 (2. 3) 的 线性 回归 模型 中 参数 向 量 w 的 选择 过 程 中 的 非 确定 性 进行 


第 2 章 通过 回归 建立 模型 . 43 


量化 的 一 种 高 效 方 法 。 关 于 这 一 线性 回归 模型 ， 应 注意 以 下 两 点 : 

1. 回归 量 关 充当“ 刺激” 的 角色 ， 和 参数 向 量 w 没有 任何 关系 。 

2. 关于 未 知 参数 向 量 W 的 信息 仅仅 包含 在 期 望 响应 D 中 ， 而 期 望 响 应 DD 扮演 着 环境 “可 
观测 量 ” 的 角色 。 

相应 地 ， 我 们 的 注意 力 集中 于 W 和 了 的 联合 概率 分 布 密度 函数 ，X 为 条 件 。 

将 密度 函数 记 为 pwplx(Cw;d1x)。 由 概率 理论 ， 我 们 知道 密度 函数 可 以 表示 为 ， 


pw.o[xCwsd[x) = pw|px (wl dsx) pold) (2.5) 
也 可 以 将 之 表达 为 等 价 形式 ，: 
pwo|x Wd|x) = poj wx (d| w:x) pw Cw) (2. 6) 


根据 这 两 个 等 式 ， 可 以 得 到 ， 
Po| w.x(d|W>X) pw(w) 
pold) 

其 中 pp(4) 关 0。 式 (2.7) 是 贝 叶 斯 定理 的 特殊 形式 ; 其 中 隐 含 了 4 个 密度 函数 ， 如 下 所 示 : 

1. 观测 密度 (observation density): 这 代表 条 件 概 率 密度 函数 po |w.x (4d1w,x)， 表 示 给 定 
参数 向 量 w， 由 回归 量 x 对 环境 响应 4 的 “观测 ”。 

2. 先 验 (prior): 这 代表 概率 密度 函数 pw (w) ， 表 示 先 验 于 环境 观测 量 的 参数 向 量 w 的 信 
息 。 此 后 ， 先 验 被 简单 地 记 为 xCw)。 

3. 后 验 密度 (posterior density) ， 这 代表 条 件 概率 密度 函数 pw| b,xCw|d,x)， 表 示 对 环境 
的 观测 完成 之 后 的 参数 向 量 w。 了 此后， 后 验 密度 记 为 x(w|d,x)。 作 为 条 件 的 响应 -回归 对 (x， 
d) 是 “观测 模型 ”>， 包 括 宙 回归 量 x 得 到 的 环境 的 响应 4 。 

4. 证 据 (evidence): 这 代表 概率 密度 函数 pp (d)， 表 示 用 于 统计 分 析 的 包含 于 响应 4 中 
的 “信息 ”。 

观测 密度 bp|wxCdlw'x) 在 数学 上 通常 以 似 然 函数 的 形式 来 表示 ， 定义 为 ， 

lCwld,x) = Po} w.x(d|w>x) (2. 8) 

而 且 ， 在 所 关心 的 参数 向 量 w 的 估计 的 范围 内 ， 在 式 (2.7) 右 边 的 证 据 项 po (ad) 仅 仅 扮演 着 归 
一 化 常量 的 角色 。 于 是 ， 可 以 用 如 下 语句 来 描述 式 (2. 7): 


参数 化 回归 模型 的 向 量 名 的 后 验 密度 与 似 然 函数 及 先 验 之 闻 的 积 成 正比 。 





bwlpxCwldx) = (2.7) 


Bp 
n(w|d,x) cc l(w|d,x)x(w) (2.9) 
其 中 符号 cc 表示 正比 。 

似 然 函 数 Liw|a,x)， 从 其 自身 考虑 ， 提 供 了 对 于 参数 向 量 w 的 最 大 似 然 (ML) 估计 ， 如 
FAMI: 

Wa. = arg max Iwjd,x) (2.10) 

然而 ， 对 于 参数 向 量 w 的 更 深层 次 的 估计 ， 考 虑 后 验 密度 xCw |d,x)。 具体 来 说 ， 我 们 通 
过 下 式 来 定义 参数 向 量 w 的 最 大 后 验 (MAP) 估计 : 

Waar = arg max n(w|d,x) (2.11) 
我 们 说 MAP 估计 器 是 比 ML 估计 器 更 深层 次 的 估计 ， 这 是 基于 如 下 两 个 原因 : 

L 用 于 参数 估计 的 贝 叶 斯 范式 ， 是 根植 于 式 (2.7) 所 示 的 贝 叶 斯 定理 ， 并 通过 式 (2. 11) 的 
MAP 估计 器 证 明 的 ， 它 采用 了 关于 参数 向 量 w 的 所 有 可 能 信息 。 与 之 相反 ， 式 (2. 10) 的 ML 
估计 器 基于 贝 叶 斯 范式 的 极端 (fringe)， 和 忽略 了 先 验 信息 。 

2. ML 估计 器 仅仅 依赖 于 观测 模型 〈d,x) ， 因 而 可 能 导致 非 唯一 解 。 为 了 加 强 解 的 唯一 性 
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和 稳定 性 ， 先 验 xCw) 必 须 被 合并 到 估计 器 的 规划 中 ， 这 正 是 MAP 估计 器 要 做 的 。 
当然 ， 应 用 MAP 估计 器 的 难点 在 于 如 何 找到 合适 的 先 验 信 息 ， 这 使 得 MAP 比 ML 需要 
更 多 的 计算 量 。 
。， 以 下 是 最 后 的 讨论 。 从 计算 的 角度 讲 ， 我 们 发 现 往往 采用 后 验 密度 的 对 数 会 比 直接 采用 后 
验 密度 要 方便 。 而 对 数 是 关于 其 自 变 量 的 单调 递增 函数 ， 因 而 允许 我 们 采取 这 一 方案 。 相 应 
地 ， 可 以 将 MAP 估计 器 写成 如 下 所 期 望 的 形式 : 


Waar = arg max log(x(wl|d.x)) (2. 12) 
其 中 log 表示 自然 对 数 。 对 于 ML 估计 器 来 说 可 采用 相似 的 方法 。 
高 斯 环境 下 的 参数 估计 
S x 和 di 表示 应 用 于 环境 的 回归 量 和 结果 响应 ， 相 对 应 于 作用 于 环境 的 第 ; 。 令 
这 一 试验 重复 NK. ARTIT SHEREE: 
= {x,,d;}™, (2.13) 


为 了 实现 参数 估计 任务 ， 我 们 做 如 下 假设 、 

假设 1: 统计 独立 与 同 分 布 

构成 训练 样本 的 N 个 样 例 是 统计 独立 与 同 分布 的 《independent and identically distribu- 
ted, iid), 

假设 2: 高 斯 性 

产生 训练 样本 9 的 环境 服从 高 斯 分 布 。 

更 具体 来 说 ， 式 (2.3) 中 的 线性 回归 模型 的 期 望 误 差 由 均值 为 0 及 共同 方差 为 oo 的 高 斯 密 
度 函 数 来 描述 ， 如 下 式 所 示 : 
= 1,2,1, N (2. 14) 





— 1 e . 
pele) zzl az) i 


假设 3: 稳定 性 

环境 是 稳定 的 ， 这 意味 着 在 全 部 N 次 试验 中 参数 向 量 W 是 固定 的 ， 但 是 未 知 的 。 

更 具体 来 说 ， 权 值 向 量 w 的 M 个 元 素 被 假设 为 iid 的 ， 每 一 个 元 素 由 均值 为 0 及 共同 方差 
Ao 的 高 斯 密度 函数 所 决定 。 因 而 可 以 将 参数 向 量 w 的 第 & 个 元 素 的 先 验 表 示 为 
ela) h=1,2,-+,M (2.15) 

对 作用 于 环境 的 第 i 次 试验 重 写 式 (2. 3)， RNA 

di = wxi He i=1,2,°5N (2.16) 
其 中 di, x Mle, 分 别 是 随机 变量 D、 随 机 向 量 X x 和 随机 变量 E 的 相应 的 样本 值 〈 即 单 点 实 
现 )。 





mC we) = 



































令 上 定义 统计 期 望 算 子 。 根 据 假 设 2， 我 们 有 
E[E,] 二 0， 对 于 所 有 的 i (2. 17) 
和 
valLE;J=EEJ=o, 对 于 所 有 的 1 (2. 18) 
根据 式 (2. 16) ， 对 于 给 定 的 回归 量 x. 
E[D.J=w'x,, i= 1,2,°°,N (2.19) 
var[D;] = EL(D; — ELD, D’ ] = ELE? ] = o (2. 20) 
然后 根据 假设 2 的 高 斯 含义 ， 由 式 (2. 14)， 我 们 表述 第 i 次 试验 的 似 然 函数 为 
lwld;,xi) = Fa ged —w'x,)?) ， L=1,2,0,N (2. 21) 
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然后 ， 由 假设 1， 对 于 环境 的 NN 次 试验 具有 iid 特性 ,我们 将 试验 中 所 有 的 似 然 函 数 表 
述 为 





N 1 N 1 | 
lwld.x) = ll ecw} d,ox.) = Cams Lel agew’) 
_ 1 1] Š 四 
-a ad wo") (2.22) 


这 表示 包含 于 式 (2. DEWAN A TE w ETAR AA 
仅 剩 的 需要 考虑 的 另 一 个 信息 源 是 包含 于 先 验 xCw) 中 的 信息 。 根 据 式 (2. 15) 描 述 的 w 的 
第 《个 元 素 的 0 -均值 高 其 特性 ， rr 我 们 有 


x(w) = NESS - Se z Heel- =t) 








_ Feu zz) = l a Lwi) (2.23) 
其 中 wl 是 未 知 参数 向 量 w 的 欧 几 里 得 范 数 ， 由 下 式 定 义 : 
lw) = (Sout) (2, 24) 
因而 ， 将 式 (2. 22) NHK (2. 23) 代 人 式 (2.9)， 然后 简化 其 结 结果 ， 得 到 后 验 密度 : 
r(w|d,x) cc exp] = gis Dita. —w"x,)? -z7 lwl (2. 25) 


现在 可 以 应 用 式 (2. 12) 的 MAP 公式 来 解决 手头 的 估计 问题 。 AARM, 将 式 (2. 25) 代 人 这 
AR., RHE 


fual N) = max — y D) (di — wx)? — A Iwl] (2. 26) 
其 中 引入 了 一 个 新 的 参数 : 


4 一 所 (2. 27) 
现在 定义 二 次 函数 : i 

gw) = Da ww) +4 Iw? (2. 28) 
显然 ， 最 大 化 式 (2. 26) 中 相应 于 w 的 参数 等 价 于 最 小 化 二 次 函数 名 (w) 。 相 应 地 ， 最 优 估 计 


Waar 可 以 通过 将 函数 名 (w) 对 w 微分 并 令 其 结果 为 0 来 获得 。 这 样 ， 可 以 获得 如 下 的 MX1 参 
数 向 量 的 期 望 MAP 佑 计 : 
Waar (N) = [Re (N) + ADS ra CN) (2, 29) 
这 里 引入 了 两 个 矩阵 和 一 个 向 量 。 
1. 回归 量 x 的 时 间 平 均 MX M 相关 短 阵 ， 由 下 式 定义 


RN =- >) Sixx? (2. 30) 


其 中 xx) 是 回归 量 x, Al x, 的 外 积 ， 应 应 用 于 环境 的 第 i 和 第 j 次 试验 。 
2. MX M 的 单位 和 矩阵 I， 其 M 个 对 角 元 素 为 1， 其 他 元 素 为 0。 
3. 回归 量 x 和 期 望 响 应 d 的 时 间 平 均 MX1 互相 关 向 量 ， 由 下 式 定义 


Bz (N) =— Sad, (2. 31) 


HÉR. CN) Alt, CN) 都 是 在 整个 训 练 样本 9 的 所 有 N 个 样 例 上 的 平均 ， 因而 这 里 使 用 了 术语 
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“时 间 平 均 ”。 
假设 我 们 给 方差 性 分 配 一 个 大 的 值 ， 这 样 做 的 隐 含 效果 是 参数 向 量 w 的 每 个 元 素 的 先 验 

分 布 ， 在 可 能 的 取 值 范围 内 ， 从 本 质 上 来 说 是 一 致 的 。 在 这 一 条 件 下 ， 参 数 和 实质 上 是 0， 式 
(2. 29) 退 化 为 ML 估计 : 

m (N) = RECN) Ba (ND (2. 32) 
这 支持 我 们 早先 提出 的 观点 ， ML 估计 器 仅仅 依赖 于 以 训练 样本 了 为 示例 的 观测 模型 ， 从 线性 
回归 的 统计 学 的 观点 而 言 ， 方 程 

Ra (N) War (N) = fa (N) (2. 33) 
通常 称 为 法 方程 (normal equation), ML 估计 Ww 当然 是 该 方程 的 解 。 另 一 个 感 兴趣 的 话题 是 
ML 估计 器 是 无 偏 估计 器 ， 对 于 一 个 无 限 大 的 训练 样本 集 了 Z， 我 们 发 现 从 极限 角度 来 说 ， 如 果 
EHE x(x) 和 响应 4d(n) 是 从 联合 遍历 过 程 (jointly ergodic processes) 中 取得 的， 那么 wat 
伍 于 未 知 随机 环境 的 参数 向 量 w。 这 时 候 时 间 平 均 可 以 用 总 体 平 均 来 代替 。 在 这 一 条 件 下 ， 习 
题 4 中 证 明了 

limit War (N) 一 Ww 

作为 对 比 ， 式 (2. 29) 所 示 的 MAP 估计 器 是 有 偏 估计 器 ， 因 而 提醒 我 们 做 出 如 下 陈述 : 


通过 利用 正则 化 〈 即 引入 先 验 知识 ) 来 改进 最 大 似 然 估 计 器 的 稳定 性 ， 其 最 大 后 验 估 计 器 
的 结果 是 有 偏 的 。 l 


简单 来 说 ， 在 稳定 性 和 偏差 之 间 需 要 做 出 一 个 权衡 。 
2.4 正则 最 小 二 乘 估计 和 MAP 估计 之 间 的 关系 
我 们 可 以 通过 另 一 条 途径 来 估计 参数 向 量 w， 凤 关注 代价 函数 (w)， 该 函数 定义 为 对 环 
境 的 N 次 试验 的 期 望 误差 的 平方 和 。 有 具体 来 说 ， 我 们 令 
(WwW) = Slew 


其 中 我 们 已 经 将 w 作为 e 的 自 变量 来 强调 这 样 的 事实 ， 即 回 归 模 型 的 不 确定 性 是 由 向 量 w 引 
起 的 。 重 新 组 织 式 (2. 16) 中 的 各 项 ， 我 们 有 


e; Cw) = d; 一 WwWTIXi， 2 一 1,2 ,人 (2. 34) 
将 这 一 等 式 代 入 留 (w) 的 表达 式 中 得 到 
So Cw) = Fy de WK)! (2. 35) 


这 仅仅 依赖 于 训练 样本 集 了 IJ。 对 w 最 小 化 代价 函数 将 产生 一 般 最 小 二 乘 估计 器 Cordinary least- 
squares estimator) 的 规则 ， 和 式 (2. 32) 的 最 大 似 然 估 计 是 等 价 的 ， 因 而 ， 明 显 有 得 到 缺乏 唯 
一 性 和 稳定 性 解 的 可 能 性 。 
为 了 克服 这 一 严重 问题 ， 习 惯 的 做 法 是 通过 增加 如 下 新 的 项 对 式 (2. 35) 定 义 的 代价 函数 进 
行 扩 展 ， | . 
Ew = Bw) +4 Iwill? = +>) — wx)? w (2. 36) 
这 一 表达 式 等 价 于 由 式 (2. 28) 定 义 的 函数 。 其 中 包含 的 欧 几 里 得 范 数 的 平方 | wl? 称 为 结构 
正则 化 (structural regularization) 。 相 应 地 ， 标 量 1 称 为 正则 化 参数 (regularization parame- 


ter). 


当 4 二 0 时， 意味 着 我 们 对 于 由 训练 样本 集 9 所 例证 的 观测 模型 有 完全 的 信心 。 另 一 种 极端 
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情况 是 一 co， 意味 着 我 们 对 于 观测 模型 没有 信心 。 实 际 上 ， 正 则 化 参数 1 在 这 两 个 极端 情况 
之 间作 出 选择 。 

在 多 数 情 况 下 ， 对 于 预先 给 定 的 正则 化 参数 和， 正则 最 小 二 乘法 的 解 是 通过 最 小 化 式 
(2. 36) 定 义 的 关于 参数 向 量 w 的 正则 代价 函数 而 得 到 的 ， 它 等 价 于 式 (2. 29) 的 MAP 估计 。 这 
个 解 称 为 正则 最 小 二 乘 解 (regularized least-squares (RLS) solution), 


2.5 计算 机 实验 : 模式 分 类 


本 节 中 ， 我 们 重复 在 第 1 章 中 学 习 过 的 模式 分 类 问题 的 计算 机 实验 ， 第 1 章 中 采用 了 感知 
器 算法 。 如 前 所 示 ， 图 1. 8 给 出 了 提供 训练 数据 和 测试 数据 的 双 月 结 构 。 而 这 里 采用 最 小 二 乘 
法 来 实现 分 类 。 

图 2. 2 给 出 了 在 两 月 之 间 的 分 隔 距 离 为 4 二 1 时 最 小 二 乘 算法 的 训练 结果 。 图 中 给 出 了 双 
月 之 间 构 造 的 决策 边界 。 相 应 地 由 感知 器 算法 在 相同 的 设置 d=1 时 的 结果 在 图 1.9 中 给 出 。 
比较 这 两 个 图 ， 可 以 观察 到 如 下 有 趣 的 结果 ， 

1. 这 两 个 算法 所 构造 的 决策 边界 都 是 线性 的 ， 从 直观 上 来 说 是 令 人 满意 的 。 最 小 二 乘 算 
法 揭示 了 双 月 的 位 置 之 间 彼此 相关 的 不 对 称 方式 ， 像 图 2. 2 中 正 倾斜 的 决策 边界 那样 。 有 趣 的 
E, 感知 器 算法 完全 忽视 了 这 种 不 对 称 性 ， 构 造 了 和 xz 轴 平 行 的 决策 边界 。 

2. 对 于 分 隔 距 离 4 二 1， 双 月 是 线性 可 分 的 。 感 知 器 算法 对 这 个 设置 完美 地 完成 了 任务 ; 
而 最 小 二 乘法 虽然 发 现 了 双 月 图 的 非 对 称 特 征 ， 但 对 测试 数据 产生 了 误 分 类 ， 带 来 了 0.8% 的 
分 类 误差 。 

3， 和 感知 器 不 同 ， 最 小 二 乘法 一 次 性 地 计算 决策 边界 。 


距离 =1， 半 径 =10, 宽 =6 时 利 




















图 2.2 距离 4 一 1 时 对 图 1.8 的 双 月 的 最 小 二 乘 分 类 


图 2. 3 是 对 分 隔 距 离 为 4 一 一 4 时 最 小 二 乘法 作用 于 双 月 模式 的 实验 结果 。 如 预料 的 那样 ， 
现在 分 类 误差 显著 增加 ， 达 到 了 9. 5% 。 对 于 同样 的 设置 ， 根 据 图 1. 10 所 报告 的 感知 器 算法 
存在 9. 3% 的 分 类 误差 ， 两 者 比较 ,我 们 看 到 最 小 二 乘法 的 分 类 性 能 略 弱 于 感知 能 算法 。 

由 1.5 节 和 和 2.5 节 的 模式 分 类 计算 机 实验 可 以 得 到 如 下 的 重要 结论 : 


尽管 感知 器 和 最 小 二 乘 算法 都 是 线性 的 ， 它 们 在 实现 模式 分 类 任务 的 时 候 其 运行 是 不 
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同 的 。 






































图 2.3 EBK d 二 一 4 时 对 图 1.8 的 双 月 的 最 小 二 乘 分 类 


2.6 最 小 描述 长 度 原则 


通过 线性 模型 对 随机 过 程 进行 描述 可 以 用 于 合成 和 分 析 。 对 于 合成 (synthesis), 我 们 通 
过 给 模型 参数 分 配给 定 集 的 数值 来 产生 希望 的 时 间 序 列 ， 并 将 之 和 均值 为 0 方差 预先 给 定 的 白 
嗓 (white noise) 结合 起 来 ; 这样 获得 的 模型 可 以 称 为 生成 模型 (generative model) 。 对 于 分 
析 (analysis) ， 从 另 一 方面 ， 我 们 对 于 固定 长 度 的 给 定时 间 序 列 进 行 处 理 以 估计 模型 参数 ， 可 
以 利用 贝 叶 斯 方法 或 者 正则 最 小 二 乘法 。 由 于 估计 是 在 统计 的 范围 内 ， 我 们 需要 在 模型 和 观测 
数据 的 匹配 性 上 给 出 一 个 适当 的 测量 。 我 们 将 这 第 二 种 问题 称 为 模型 选择 (model selection) 。 
例如 ， 我 们 可 能 想 要 估计 模型 自由 度 〈 即 可 调整 的 参数 ) 个 数 ， 甚 至 估计 模型 的 一 般 结构 。 

统计 学 文献 中 提出 了 很 多 用 于 模型 选择 的 方法 ， 其 中 每 个 方法 都 有 其 自身 的 目标 。 由 于 这 
些 方 法 的 目标 各 不 相同 ， 因 而 在 应 用 于 同样 的 数据 集合 时 ， 不 同 的 方法 会 产生 很 大 的 不 同 是 不 
奇怪 的 (Griinwald, 2007), 

本 节 中 ， 我 们 介绍 一 个 充分 证 明了 行 之 有 效 的 方法 ， 称 为 模型 选择 的 最 小 描述 长 度 〈min- 
imum-description-length, MDL) 原则 ， 这 是 由 Rissanen (1978) 所 做 出 的 开创 性 工作 。 

MDL 原则 发 现 的 灵感 可 以 追溯 到 柯 尔 英 哥 洛 夫 复杂 性 理论 (Kolmogorov complexity the- 
ory)。 在 这 一 值得 注意 的 理论 中 ， 伟 大 的 数学 家 柯 尔 莫 哥 治 夫 定义 了 如 下 的 复杂 性 (Kolmog- 
orov, 1965; Li and Vitányi, 1993; Cover and Thomas, 2006; Grünwald, 2007): 


数据 序列 的 算法 GR) 复杂 度 是 用 于 打印 出 这 个 序列 然后 终止 的 最 短 二 进 计 算 机 程序 的 
长 度 。 


令 人 惊讶 的 是 对 于 复杂 度 的 定义 没有 采用 概率 分 布 的 记号 作为 其 基础 ， 而 是 考虑 计算 机 这 一 最 
通常 形式 的 数据 压缩 机 。 

利用 柯 尔 莫 哥 洛 夫 复 杂 度 的 基本 概念 ， 我 们 可 以 详尽 阑 述 理想 归纳 推理 理论 (theory of 
idealized inductive inference)， 其 目标 是 找到 给 定数 据 序 列 的 “规律 ” (regularity) 。 将 学 习 视 
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为 尝试 寻找 “规律 ”的 思想 为 Rissanen 在 表述 MDL 原则 时 提供 了 第 一 个 观察 。Rissanen 利用 
的 第 二 个 观察 是 规律 本 身 可 以 等 同 于 “压缩 能 力 ”。 

因此 ，MDL 原则 将 两 个 观察 组 合 在 一 起 ， 一 个 观察 是 规律 ， 另 一 个 观察 是 压缩 能 力 ， 从 
而 将 学 习 视 为 数据 压缩 ， 这 反 过 来 提示 我 们 如 下 内 容 : 

给 定 一 个 假设 集合 %， 一 个 数据 序列 4， 我 们 尝试 寻找 交 中 的 特定 的 假设 或 者 光 中 某 些 假设 
的 组 合 来 最 大 化 地 压缩 数据 序列 df。 


这 上段 话 很 简洁 地 总 结 了 MDL 原则 是 什么 。 这 里 的 用 于 标识 序列 的 符号 d 不 要 和 前 面 用 于 表示 
期 望 响应 的 符号 a 相 混淆 。 

文献 中 已 经 有 MDL 原则 的 多 个 版 本 。 我 们 将 集中 讨论 最 古老 的 但 却 最 简单 、 最 著名 的 版 
本 ， 称 为 概率 模型 的 简单 两 部 分 编码 MDL 原则 (simplistic two part code MDL principle), A 
语 “ 简 单 ”(simplistic) 意思 是 所 考虑 的 编码 长 度 不 是 由 优化 方式 决定 。 这 里 采用 的 术语 “ 编 
码 ”(code) 和 “编码 长 度 ” (codelengths) 是 关于 对 数据 序列 按照 最 短 或 最 小 元 余 (east re- 
dundant) 方式 编码 的 过 程 。 

假设 给 定 一 个 候选 模型 或 者 模型 类 人 。U 的 所 有 元 素 都 是 概率 源 ， 后 文 将 用 p 来 表示 点 假 
设 而 不 是 用 %。 特 别 地 ， 我 们 寻找 能 够 最 好 解释 给 定数 据 序列 4 HMER ERM peu. Web 
分 编码 MDL 原则 告诉 我 们 ， 寻 找 〈 点 ) 假设 pe AH 使 其 最 小 化 p 的 描述 长 度 ， 我 们 将 p 的 描 
述 长 度 记 为 Li(p)， 在 p 的 帮助 下 编码 后 的 数据 序列 d 的 描述 长 度 记 为 Li(d1p)。 我 们 有 和 的 
ÉA: 

Lulpd) = Lip) + Li(dlp) 
选择 特别 的 点 假设 PE 最 小 化 Li(p，d)。 

重要 的 是 这 里 p 本 身 也 被 编码 。 因 而 ,在 寻找 最 大 地 压缩 数据 序列 4 的 假设 的 时 候 ， 必 须 
按照 这 样 的 途径 来 编码 (描述 或 压缩 ) 数据 ， 即 解码 器 能 够 在 甚至 事先 不 知道 假设 的 情况 下 恢 
复数 据 。 这 可 以 通过 明确 的 编码 假设 来 实现 ， 如 前 述 的 两 部 分 编码 原则 所 述 ; 这 也 可 以 通过 完 
全 不 同 的 途径 来 实现 一 一 例如 通过 对 假设 进行 平均 (Grünwald, 2007). 

令 MD ,MD ,ko ,…， 定义 一 组 线性 回归 模型 ,其 相应 的 参数 向 量 为 w EW:， 其 中 模 
型 阶 & 二 1,2,…; BAA EWO WO pe WO yo, 是 维 数 增加 的 。 感 兴趣 的 问题 是 确定 能 最 好 
解释 未 知 环境 的 模型 ， 训 练 样本 集 {x;，d;) 六 ,是 产生 于 这 个 环境 的 ， 其 中 x, IWA, di 为 相 
应 的 响应 。 我 们 刚刚 描述 的 是 模型 阶 选择 问题 (model-order selection problem). 

通过 对 组 合 长 度 Li Cp. d) 的 统计 特性 的 工作 ， 两 部 分 编码 MDL 原则 告诉 我 们 选择 使 下 
式 最 小 的 第 个 模型 : 





REAR 复杂 度 项 





rnin |—logp(d,|w? aw + ZlogCN) FOW |, i (2. 37) 
其 中 x(w* ) 为 参数 向 量 w* 的 先 验 分 布 ， 上 式 的 最 后 一 项 是 关于 模型 阶 & 的 阶 Rissanen, 
1989; Griinwald，2007)。 对 于 大 的 样本 集 大 小 N， 最 后 一 项 会 被 表达 式 的 第 二 项 2 log N) H 
盖 。 式 (2.37) 的 表达 式 通常 分 解 为 两 项 : 
。 误差 项 ， 记 为 一 Ilog(p(di|ww )rCwe )， 与 模型 以 及 数据 有 关 。 
。 复杂 度 项 ， 记 为 《log(N) 十 OCk)， 仅仅 和 模型 有 关 。 


实际 上 ， 对 于 不 同 的 结果 ， 应 用 式 (2. 37) 时 经 常 省 略 O(%) 项 以 简化 问题 。 产 生 不 同 结果 
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的 原因 是 OC(&) 项 可 能 相当 大 。 然 而 对 于 线性 回归 模型 ， 它 能 够 明确 有 效 地 计算 出 来 ， 其 结果 
在 实际 中 能 够 工作 得 非常 好 。 

注意 在 式 (2. 37) 的 表达 式 中 不 采用 先 验 分 布 x(w*“*) 是 由 Rissanen (1978) 首先 提出 的 。 

如 果 对 于 式 (2. 37) 的 表达 式 有 不 止 一 个 最 小 化 值 ， 那 么 我 们 选择 具有 最 小 假设 复杂 项 的 那 
个 模型 。 如 果 这 样 做 仍然 留 下 了 多 个 候选 模型 ， 将 不 做 额外 的 选择 而 只 是 用 其 中 的 一 个 来 工作 
(Grünwald, 2007), 

MDL 原则 的 贡献 

模型 选择 的 MDL 原则 提供 了 两 个 重要 的 贡献 (Grünwald, 2007): 

1. 沼 有 两 个 模型 对 于 给 定 的 数据 序列 匹配 得 一 样 好 的 时 候 ，MDL 原则 选择 “最 简单 的 ” 
那个 ， 即 它 允 许 利 用 对 数据 更 短 的 描述 。 换 名 话说 ，MDL RUKA T A-F Occam’ s 
razor) 的 精确 形式 ， 奥 卡 姆 剃刀 说 明了 对 简单 理论 的 优先 选择 ， 
接受 匹配 数据 的 最 简单 解释 

2. MDL 原则 是 一 致 的 〈consistent) 模型 选择 估计 器 ， 随 着 样本 个 数 的 增加 ， 它 收 和 敛 于 真 
的 模型 阶 。 

也 许 最 值得 注意 的 是 ， 包 括 MDL 原则 在 内 的 几乎 所 有 的 应 用 ， 在 文献 中 极 少 有 关于 不 良 
特性 的 反常 结果 或 模型 的 记录 。 


2.7 固定 样本 大 小 考虑 


对 于 参数 估计 的 最 大 似 然 估计 或 一 般 最 小 二 乘法 来 说 ， 其 最 大 的 局 限 在 于 解 的 非 唯 一 性 和 
不 稳定 性 ， 这 是 由 于 完全 依赖 于 观测 模型 〈 即 训练 样本 了 ) 所 导致 的 ; 刻画 解 的 非 唯 一 性 和 不 
稳定 性 在 文献 中 也 被 称 为 过 拟 会 (overfitting) 。 为 了 对 这 一 实际 问题 进行 更 深入 的 探讨 ， 考 虑 
如 下 的 一 般 回归 模型 : 
d= f(x,w) +e (2. 38) 
其 中 f(x,w) 为 关于 回归 量 x 和 模型 参数 w 的 确定 函数 ，e 是 期 望 误差 。 由 图 2. 4a 所 示 的 这 一 
模型 ， 是 随机 环境 的 数学 描述 ， 其 目的 在 于 解释 或 者 预测 由 回归 量 x 产生 的 响应 do 
图 2. 4b 是 环境 的 相应 物理 模型 ， 其 中 多 记 为 未 知 参数 向 量 w 的 一 个 估计 。 第 二 个 模型 的 


目的 是 编码 由 训练 样本 9 表示 的 试验 知识 ， 如 下 式 所 示 : 
G >wW (2. 39) 





回归 量 pz 响应 
X d 





图 2.4 a) 随机 环境 的 数学 模型 ， 其 参数 为 向 量 w; O 环境 的 物理 模型 ， 其 中 儿 是 未 知 参 数 向 量 w 的 估计 


实际 上 ， 物 理 模型 提供 了 图 2. 4a 所 示 的 回归 模型 的 一 个 逼近 (approximation)。 将 响应 于 输入 
向 量 x 所 产生 的 物理 模型 的 实际 响应 记 为 : 
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y = F(x,W) (2. 40) 
HR OFC + Ww) A h Op Be SS A eK; 式 (2.40) 中 的 y 是 随机 变量 Y 的 一 个 样本 
值 。 给 定式 (2. 39) 的 训练 样本 ,估计 硕 多 是 如 下 的 代价 函数 的 最 小 化 值 : 


EM = FD), Fm) (2. 41) 


其 中 因子 1/2 是 为 了 和 前 面 的 记号 保持 一 致 。 除 了 尺度 因子 1/2， 代 价 耳 数 名 (WW) 是 环境 (期 
A) 响应 d 和 物理 模型 的 实际 响应 y 之 间 差 的 平方 ,在 整个 训练 样本 集 了 上 计算 。 

令 符 号 区 表示 在 整个 训练 样本 集 7 上 所 取 的 平均 算 子 (average operator), EATE 下 
的 变量 或 其 函数 由 xX 和 d 表示 ，(x,d) 对 表示 训练 样本 9 中 的 一 个 例子 。 与 之 相 比 ， 统 计 期 望 
算 子 E 作 用 于 整个 x 和 6。 的 总 体 上 上 上， 了 作 为 一 个 子 集 也 包括 在 内 。 在 下 面 要 特别 注意 算 子 E 和 Ey 
之 间 的 区 别 。 

受 式 (2. 39) 所 示 的 变换 的 启发 ， 可 以 将 Fa, w) 和 F(x,9) 互 换 使 用 ， 从 而 将 式 (2. 41) 写 
成 如 下 等 价 形式 : 


EM = [Ld — FOI)" (2. 42) 


通过 对 项 (4 一 F(x,9) 增加 然后 减 去 f(x,w)， 然 后 利用 式 (2. 38)， 我 们 有 
d— f(x,9) = [d — f(x w+ [fx w — FOS) ] =e +L fCx.w) — Fx.) | 
Wax —RIKRRARQM4ORSP BAK, TUBS RREW AMPH SHH: 


ECR) = Tele+ BECO w) 一 FOT) ] +E, lef xw) —eF (x,9)] (2.43) 


而 ， 式 (2. 43) 右 边 最 后 的 期 望 项 是 0， 基 于 如 下 两 个 原因 : 
。 期 望 误差 s 和 回归 函数 f(x,w) 之 间 是 不 相关 的 。 
。 期 望 误差 s 属于 图 2. 4a 所 示 的 回归 模型 ， 而 通 近 函数 F(x, 多) 属于 图 2. 4b 所 示 的 物理 
模型 。 
相应 地 ， 式 (2. 43) 简 化 为 
ER) = F Ele] +> ELGO w — F(x,9))’] (2. 44) 


式 (2. 44) 右 端的 项 E[e’] 是 期 望 (回归 建 模 ) 误差 es 的 方差 (variance)， 在 整个 训练 样本 集 了 
上 评 佑 ; 这 里 假设 s 具有 0 -均值 。 方差 表 示 固 有 误差 (intrinsic error) ， 因 为 它 独 立 于 估计 多 。 
因此 ， 舍 计量 (代价 函数 名 (W) 的 最 小 化 值 ) 也 将 最 小 化 回归 函数 FCx,w)7 和 逼近 函数 下 (x,W) 
之 间距 离 平 方 的 总 体 平均 。 换 旬 话 说 ， 对 于 F(x, 次 ) 的 效果 的 自然 测度 (natural measure) 是 
作为 期 望 响应 4 的 预测 值 ， 由 下 式 定义 (忽略 了 尺度 因子 1/2): 
Lay (f(x WwW) FCx,W)) = ELC Cw) — F(x,9))?] (2. 45) 
自然 测度 从 根本 上 是 非常 重要 的 ， 因 为 它 提供 了 在 偏 置 和 方差 之 间 取 得 平衡 的 数学 基础 ， 而 这 
两 者 是 由 利用 (x, 次 ) 作为 f(x,w) 的 通 近 而 产生 的 。 
{a E-J 22 BABE 
由 式 (2. 38) 我 们 发 现 函 数 f(x,w) 等 于 条 件 期 望 ECZ|x) 。 因 而 可 以 将 fx) 和 FCx, Ww) ZB 
距离 的 平方 重新 定义 如 下 
La Cf xs w), FCx,W)) = EL ELld |x] — Fagy] (2, 46) 
一 表达 式 可 以 看 成 是 在 回归 函数 f(x. w) = Ed | x] ER FGx,g) 之 间 估 计 误 差 的 乎 均 
在 整个 训练 样本 集 了 上 评估 。 注 意 条 件 均值 ELd |x] 对 训练 样本 集 引 具有 常 期 望 。 下 面 我 
们 有 
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ELw |x] 一 FCx: 了 了 ) = Eld |x] ELF, T) ]+ (Eg L F(x.) ]) — F(x,T)) 
ERER J PR J a QE, CF Cx. 了)]。 通 过 与 根据 式 (2. 42) 导 出 式 (2.43) 相 似 的 方 
a 我 们 将 式 (2. 46) 重 新 表示 成 两 项 之 和 的 形式 〈 见 习题 2.5) : 



































La (f(x) ,F(xX,T)) = BW) HVO) (2. 47) 
其 中 BCW) 和 VCW) 被 分 别 定义 为 
BO) = E[F(x,9)] — ELa|x] (2. 48) 
和 
Vw) =E[(F(x,9) —E,[FCx,F) ])?] (2. 49) 
现在 可 观察 到 两 个 重要 结果 : 











1. 第 一 项 B(YW) 是 逼近 函数 下 (x，9) 的 平均 值 的 偏 置 ， 根据 回归 函数 f(x,w) =ELd |x] 来 
测量 。 因 而 ，B(W) 表 示 由 函数 (x,，%W) 定 义 的 物理 模型 不 能 够 精确 到 近 回 归 聘 数 f(x,w) = 
EF[a|xj。 因 此 可 以 将 偏 置 B(W) 看 成 是 通 近 误差 (approximation error), 

2. 第 二 项 V(W) 是 通 近 函数 POT) 的 离散 ， 在 整个 训练 样本 集 9 上 测量 。 因 而 ，V(W) 表 
示 关 于 回归 函数 f(x,w) 的 包含 于 训练 样本 集 9 中 的 试验 知识 的 不 充分 性 。 因 而 可 以 将 V(W) 看 
成 估计 误差 Cestimation error) 的 显 性 表示 。 

图 2. 5 图 示 了 目标 GHE) 和 逼近 函数 之 间 的 关系 ， 它 说 明 估 计 误 差 〈 即 偏 置 和 离散 ) 是 
如 何 累积 的 。 为 了 达到 好 的 总 体 性 能 ， 通 近 函 数 POW) = Fa, T) Ki BOW) A VOR ER 
必须 很 小 。 

遗憾 的 是 ， 我 们 发 现在 对 有 限 容 量 的 训练 样本 通过 样 例 进行 学 习 的 复杂 物理 模型 中 ， 获 取 
小 偏 置 的 代价 是 大 的 离散 。 对 于 任何 物理 模型 而 言 ， 仅 仅 在 训练 样本 容量 无 限 大 的 时 候 ， 才 有 
希望 同时 消除 偏 置 和 离散 。 相 应 地 就 有 偏 置 -离散 困境 (hbias-variance dilemma) ， 其 结果 就 是 
过 慢 的 收敛 速度 (Geman 等 ，1992) 。 偏 置 -离散 困境 可 以 通过 有 目的 地 引入 偏 置 来 规避 ， 这 
将 使 得 消除 或 者 显著 减少 离散 成 为 可 能 。 当 然 ， 我 们 必须 保证 在 物理 模型 的 设计 中 引入 的 偏 置 
是 无 害 的 。 例 如 从 模式 分 类 的 角度 来 说 ， 偏 置 是 无 害 的 是 指 仅 仅 在 我 们 试图 推断 未 预期 类 的 回 
归 时 它 对 于 均 方 误差 有 显著 贡献 。 


Cy 


图 2.5 对 于 线性 回归 模型 ， 由 式 (2. 46) 定 义 的 自然 测度 La (f(x,w)，F(x， 急 )) 被 分 解 为 偏 置 和 离散 项 


关于 图 2. 5 的 解释 如 下 : 

1. 图 中 带 阴影 的 内 部 空间 是 外 部 空间 的 子 集 : 
外 部 空间 表示 回归 函数 f(* ,w) 的 总 体 。 
内 部 空间 表示 逼近 函数 FC(。, 雏 ) 的 总 体 。 

2. 图 中 有 三 个 点 ， 两 个 是 固定 的 ， 一 个 是 随机 的 : 
E[4d|xj， 固 定点 ， 外 部 空间 上 的 平均 
Ej[LF(x,F 了 )]， 第 二 个 固定 点 ， 内 部 空间 上 的 平均 
F(x,9) 随机 分 布 在 内 部 空间 内 

3. 统计 和 参数， 包含 在 图 中 : 





Sx, w) =ELdlx] 
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B (w) 二 偏 置 ， 表示 E [dlx] #E [F a, D] 之 间 的 距离 。 
V (w) 二 离散 ,表示 F(x, 9) 和 FE [F œ, N] 之 间距 离 的 平方 ， 
EW AREA RT EPA. 
B? (w) +V (w) =F (x, T) 和 FE [dix] 之 间距 离 的 平方 ， 在 训练 样本 集 外 上 平均 。 
通常 来 说 ， 必 须 对 每 个 具体 的 应 用 设计 偏 置 。 达 成 这 一 目标 的 一 个 实际 途径 是 利用 约束 
(constrained) 网 络 结构 ， 这 将 比 通用 结构 表现 更 优 。 


2.8 工具 变量 方法 


在 学 习 线 性 回归 模型 的 时 候 ， 我们 首先 在 2. 3 节 从 贝 叶 斯 理论 的 观点 作 了 讨论 ， 然 后 在 
2.4 节 从 最 小 二 乘法 的 观点 作 了 讨论 。 我 们 指出 ， 两 种 方法 都 能 产生 图 2. 1 所 示 的 未 知 随机 环 
境 的 参数 向 量 w 的 相同 解 ， 即 作为 正则 线性 回归 模型 的 式 (2. 29) 和 非 正 则 版 本 的 式 (2. 32)。 这 
些 公式 在 回归 量 〈 即 输入 信号) x 和 期 望 响应 4 都 无 噪声 的 前 提 下 根据 高 斯 环境 导出 。 然 而 ， 
如 果 回 归 量 x 仅 能 在 加 性 噪声 的 环境 下 观测 ， 实 际 中 会 发 生 什 么 ? 也 就 是 说 ， 现 在 噪声 回归 量 


























Zz 一 x; +v; (2. 50) 
其 中 vw ;是 伴随 着 训练 样本 集 9 中 第 i 次 实现 的 观测 x, 的 噪声 的 测量 。 如 果 应 用 式 (2. 32) 的 非 正 
则 公式 ， 将 获得 未 知 随机 环境 的 参数 向 量 w 的 修正 解 : 

Wa = Re Pe (2.51) 
HbR. 是 噪声 回归 量 z OM EY KR. FA d 和 z 的 时 间 平 均 互 相关 
函数 。 为 了 简化 问题 ， 我 们 忽略 了 这 两 个 相关 函数 对 于 训练 样本 容量 的 依赖 性 。 假 设 测量 噪声 
向 量 v 是 白 曲 声 ， 其 均值 为 0 且 相 关 和 矩阵 为 只 IE， 其 中 工 是 单位 和 矩阵， 我 们 得 到 下 面 的 相关 
pa : 





R. =R,, tal 


和 
Ê = Ty 
相应 地 ， 最 大 似 然 估计 器 假设 为 下 面 的 新 形式 
Wu = (BR, HED? Fe (2. 52) 


从 数学 上 来 说 ， 这 个 式 子 等 价 于 式 (2. 29) 的 MAP 公式 ， 其 正则 化 参数 4 被 设置 为 等 于 噪声 方 
差 必 。 这 一 观察 使 得 我 们 可 以 作 如 下 的 陈述 : 

在 回归 量 z 中 存在 的 加 性 噪声 (具有 合适 的 噪声 方差 ) 具有 稳定 最 大 似 然 估计 器 的 有 益 效 
果 ， 但 是 以 给 解 引入 偏 置 为 代价 。 


这 是 个 很 具有 讽刺 意味 的 陈述 ， 附加 的 噪声 扮演 了 正则 器 (稳定 器 ) 的 角色 1 

然而 ,假设 需 要 的 是 对 未 知 参数 向 量 w 产生 的 解 是 渐 近 无 偏 的 《asymptotically unbi- 
ased) 。 在 这 种 情形 下 ， 我 们 可 以 求助 于 工具 变量 方法 (Young, 1984), 这 种 方法 依赖 于 引入 
工具 变量 集 ， 表 示 为 向 量 和 &， 和 噪声 回归 量 z 具有 相同 的 维 数 ， 且 满足 下 述 两 个 性 质 : 

性 质 1 工具 向 量 & 和 无 品 回 归 量 x 之 间 是 高 度 相关 的 ， 如 下 式 表 示 : 
Ez, ] £0 ,对 所 有 7 入 (2. 53) 
其 中 ，x; 是 无 噪 回归 量 x 的 第 j 个 元 素 ，% 是 工具 向 量 $ 的 第 上 个 元 素 。 

性 质 2 工具 向 量 % 和 测量 噪声 向 量 v 是 统计 独立 的 ， 如 下 式 所 示 : 
Fu] =0 ,对 所 有 j 和 上 (2. 54) 
有 了 满足 上 面 两 个 性 质 的 工具 向 量 全 ， 我 们 来 计算 下 面 的 相关 函数 ， 
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1. 噪声 回归 量 z 和 工具 向 量 * 是 相关 的 ， 得 到 互相 关 和 矩阵 : 
RÈ; 一 » Ra? (2. 55) 


其 中 2, 是 噪声 训练 样本 {z,di} 六 ,中 的 第 7 个 回归 量 , & 是 相应 的 工具 向 量 。 
2. 期 望 的 响应 之 和 工具 向 量 & 是 相关 的 ， 得 到 互相 关 向 量 ， 


fs 一 » Kid; (2. 56) 
给 定 这 两 个 相关 度量 ， 我 们 利用 修正 公式 ， 
N 一 N 
WN) = Rara = (>) R27) (> Ra.) (2. 57) 


来 计算 对 于 未 知 参 数 向 量 w 的 一 个 估计 CYoung, 1984), M (2.51) 的 ML MAR, $ 
(2. 57) 的 修正 公式 基于 工具 变量 方法 ， 对 未 知 参数 向 量 w 提供 了 一个 渐 近 无 偏 估计 ; 参考 习题 
2.7。 

然而 ， 在 利用 工具 变量 方法 的 时 候 ， 关 键 问 题 是 如 何 获取 或 者 产生 满足 性 质 1 和 2 的 变 
量 。 结 果 在 时 间 序 列 分 析 中 ， 关 于 这 一 问题 的 解 非常 直接 ， 这 有 些 出 乎 意料 。 


2.9 小 结 和 讨论 


本 章 学 习 了 在 统计 学 文献 中 已 经 很 好 地 建立 起 来 的 线性 回归 的 最 小 二 乘法 。 我 们 是 从 两 个 
不 同 但 互补 的 观点 展开 学 习 的 : 

。 贝 叶 斯 理论 ， 这 里 感 兴趣 的 目标 是 对 一 组 未 知 的 参数 作 最 大 后 验 估 计 。 这 一 参数 估计 

方法 需要 对 于 未 知 参 数 的 先 验 分 布 知识 。 这 里 是 关于 高 斯 环境 的 说 明 。 

。 正则 理论 ， 这 里 用 于 最 小 化 的 对 未 知 参 数 的 代价 函数 包含 两 部 分 : 在 整个 训练 数据 上 

的 平方 解释 误差 和 由 参数 向 量 的 平方 欧 几 里 得 范 数 定义 的 正则 项 。 

对 于 如 下 特殊 环境 ， 即 未 知 参数 的 先 验 分 布 服从 均值 为 0， FEA MBM, EWE 
HAAN 是 成 反比 的 。 这 意味 着 当 oz 很 大 的 时 候 〈 即 未 知 参数 在 很 广 的 范围 内 一 致 分 布 )， 
用 于 寻找 参数 向 量 w 的 估计 的 公式 可 以 由 法 方程 (normal equation) 定义 : 

W 一 六 二 Par 
EFR BK x HHP. PEAR E x 和 期 望 响应 a 之 间 的 时 间 
平均 互相 关 向 量 。 两 个 相关 参数 都 是 利用 训练 样本 (x dj}. RKE. AMKMFAAARS 
N。 进 一 步 说 ， 如 果 假 设 其 先 验 是 一 致 分 布 的 话 ， 这 一 公式 和 最 大 似 然 估 计 法 获得 的 解 是 等 
价 的 。 

我 们 还 讨论 了 其 他 三 个 重要 的 问题 : 

。 用 于 模型 阶 选 择 〈 即 线性 回归 模型 中 未 知 参 数 向 量 的 大 小 ) 的 最 小 描述 长 度 (MDL) 

准则 。 
。 偏 置 -离散 困境 ， 这 意味 着 在 参数 估计 (包含 利用 有 限 样本 容量 ) 时 不 可 避免 地 会 遇 到 
在 估计 的 离散 和 偏 置 之 间 寻 找平 衡 的 任务 ; 偏 置 定义 为 参数 估计 的 期 望 值 和 实际 值 之 
间 的 偏差 ， 而 离散 是 对 期 望 值 四 周 估计 的 “变更 度 ”(volatility) 的 度量 。 

。 工具 变量 方法 ， 当 训练 样本 观测 是 有 噪声 的 时 候 就 需要 用 到 这 一 方法 ; 在 实际 中 已 知 
会 遇 到 这 样 的 情况 。 


注释 和 参考 文献 
L 回归 模型 可 以 是 线性 的 也 可 以 是 非 线性 的 。 在 Rao (1973) 的 经 典 图 书 中 对 线性 回归 模型 进行 了 深 人 讨论。 
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Seber 和 Wild (1989) 讨论 了 非 线性 回归 模型 。 
2. 具有 高 度 可 读 性 的 贝 叶 斯 理论 方面 的 资料 ， 参 考 Robert (2001), 
3. 对 于 最 小 二 乘法 的 细节 方面 的 讨论 ， 参 考 Haykin (2002) 的 第 8 章 。 


习题 


2.1 讨论 线性 回归 模型 中 参数 向 量 的 最 大 后 验 估计 和 最 大 似 然 估计 之 间 的 基本 差别 。 
2.2 从 式 (2. 36) 的 代价 函数 思 (w) 开 始 ， 通 过 对 未 知 参数 向 量 w 最 小 化 代价 函数 来 推导 式 (2. 29), 
2.3 基于 图 2. 1 的 线性 回归 模型 给 出 最 小 二 乘 估计 器 的 性 质 ， 
性 质 1 最 小 二 乘 估 计 
w = Rata 
是 无 偏 的 ， 如 果 图 2. 1 的 线性 回归 模型 中 期 望 误 差 s 具有 0 -均值 。 
性 质 2 当期 望 误差 e。 是 从 一 个 均值 为 0 方差 为 o 的 白 噪 中 产生 的 话 ， 最 小 二 乘 估计 部 的 协 方差 矩阵 
等 于 
a Rz. 
性 质 3 估计 误差 
e =d—w'x 
产生 于 最 小 二 乘 优化 方法 ， 和 期 望 响应 的 估计 (表示 为 4) 是 正 交 的 ; 这 一 性 质 是 正 交 性 原理 Cprinci- 
ple of orthogonality) 的 必然 结果 。 如 果 采 用 4，Q4，e, 的 几何 表示 ， 我 们 将 发 现 表 示 e 的 向 量 ， 是 垂直 
F GIET) 表示 4 的 向 量 的 。 正 是 受 这 一 几何 表示 的 启发 ， 下 面 的 式 子 才 称 为 法 方程 ; 
Ro VS fa 
从 法 方程 开始 ， 在 良 ,和 i BY E P YA F EA ETE 
2.4 S RR 表示 回归 量 x 的 总 体 平均 相关 函数 ， 且 令 rw 表示 相应 的 回归 量 x 和 响应 d 之 闻 的 总 体 平均 互相 关 











向 量 ; 即 
Re = ELxx’ | 
Pa, 一 Elax] 
参考 式 (2. 3) 的 线性 回归 模型 ， 证 明 最 小 化 均 方 误差 
J¢w) = Ele] 


导致 Wiener- Hopf 方程 
RW = le 
其 中 w 是 回归 模型 的 参数 向 量 。 比 较 这 一 方程 和 式 (2. 23) 的 法 方程 。 
25 £24) RAGE RR FO, W 作为 期 望 响 应 a 的 预测 器 的 有 效 性 的 自然 测度 。 这 一 表达 式 由 两 个 分 量 
组 成 ， 一 个 定义 平方 偏 置 ， 另 一 个 定义 离散 。 从 式 (2. 46) 推 导 这 一 表达 式 。 
2.6 详细 阐述 下 面 的 陈述 : 
通过 编 入 先 验 知识 而 约束 的 网 络 结构 ， 以 增加 偏 置 为 代价 来 减少 离散 ， 从 而 处 理 偏 置 -离散 困境 。 
2.7 式 (2.57) 描 述 的 工具 变量 法 提供 了 对 未 知 参 数 向 量 WCN) 的 渐 近 无 偏 估计 ; 即 
lim WIN) =w 
证 明 这 句 话 的 正确 性 ,假设 回归 量 x 和 响应 4 是 联合 遍历 的 。 
计算 机 实验 
2.8 重复 2.5 节 中 所 描述 的 模式 分 类 实验 ， 这 一 次 将 两 个 月 亮 设 为 恰好 线性 可 分 ， 即 4 一 0。 对 你 的 结果 作 评 
论 ， 并 且 将 之 和 习题 1. 6 中 用 感知 器 所 获得 的 结果 相 比 较 。 
2.9 在 2.5 节 和 习题 2.8 的 实验 中 ， 没 有 对 最 小 二 乘法 进行 正则 化 。 如 果 采 用 正则 化 的 话 会 不 会 对 最 小 二 乘 
法 的 性 能 产生 影响 ? 
为 了 证 实 你 对 这 个 问题 的 回答 ， 重 复习 题 2. 8 的 实验 ， 这 一 次 利用 正则 最 小 二 乘法 来 做 。 
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最 小 均 方 算法 





本 章 介 绍 一 个 非常 流行 的 在 线 学 习 算 法 ， 称 之 为 最 小 均 方 (least-mean- square，LMS) 算 
它 是 由 Widrow 和 Hoff 在 1960 年 提出 的 。 
pani 


3.1 节 的 引言 部 分 以 及 随后 的 3.2 节 通 过 关于 有 限 脉 冲 响应 的 线性 离散 时 间 滤 滤器 的 讲 
述 ， 为 本 章 剩 余部 分 建立 了 基础 。 

3.3 节 回 顾 两 个 无 约束 最 优化 技术 : 最 速 下 降 法 和 和 牛顿 法 。 

3.4 节 介 绍 维 纳 (Wiener) 滤波 器 ， 在 最 小 均 方 误差 意义 下 它 是 最 优 的 。 一 般 来 说 ，LMS 
算法 的 平均 性 能 是 通过 维 纳 滤波 器 来 判断 的 。 

3.5 节 介绍 LMS 算法 的 推导 。3.6 节 提 供 一 个 作为 马尔 可 夫 模 型 的 LMS 算法 的 修正 形 
式 。 然 后 ， 为 研究 LMS 算法 的 收敛 行为 作 准 备 ，3.7 节 介绍 来 自 于 非 稳 定 热 力学 的 调 之 万 
(Langevin) 方程 。 算 法 的 收敛 分 析 所 必需 的 另 一 个 工具 是 关于 直接 平均 的 Kushner 方法 ; 这 
一 方法 在 3.8 节 中 讨论 。3.9 节 中 介绍 算法 的 详细 的 统计 分 析 ; 更 重要 的 是 ， 能 够 证 明 算法 的 
统计 行为 (使 用 小 的 学 习 率 参数 ) 实际 上 是 朗 之 万 方程 的 离散 时 间 版 本 。 

3.10 节 用 计算 机 实验 来 评估 LMS 算法 的 小 学 习 率 理论 。3. 11 节 重 复 1.5 节 利用 感知 器 进 
行 的 模式 分 类 实验 ， 而 这 一 节 采 用 的 是 LMS HR. 

3. 12 节 讨 论 LMS 算法 的 优点 和 局 限 性 。3. 13 节 讨 论 关 于 学 习 率 退火 方案 的 相关 问题 。 


3.1 引言 


第 1 章 所 讨论 的 Rosenblatt 感知 器 是 解决 线性 可 分 模式 分 类 问题 的 第 一 个 学 习 算 法 。 而 由 
Widrow 和 Hoff(1960) 提出 的 最 小 均 方 算法 (LMS) 是 第 一 个 解决 如 预测 和 信道 均等 化 等 问 
题 的 线性 自 适应 滤波 算法 。LMS 算法 的 提出 是 受到 了 感知 器 的 启发 。 尽 管 从 应 用 上 来 说 有 所 
不 同 ， 这 两 个 算法 之 间 有 一 个 共同 的 特征 : 它们 都 用 到 了 线性 组 合 器 (linear combiner)， 因 而 
其 名 称 是 “线性 ”的 。 

。 令 人 惊奇 的 是 ，LMS 算法 自身 不 仅仅 可 以 作为 自 适应 滤波 应 用 机 器 ， 它 还 可 以 作为 其 

他 自 适应 滤波 算法 的 评价 准则 。 这 里 面 的 原因 是 多 方面 的 : 
。 从 计算 复杂 度 来 说 ， 对 于 可 调 参 数 而 言 LMS 算法 的 复杂 度 是 线性 的 ， 这 使 得 算法 是 计 
算 高 效 (computationally efficient) 的 ， 而 算法 从 性 能 上 来 说 依然 是 有 效 的 。 

。 算法 可 以 简单 地 用 代码 来 实现 ， 因 而 是 容易 建立 的 。 

。 最 重要 的 是 ， 对 于 外 部 扰动 来 说 ， 算 法 是 鲁 棒 的 。 

从 工程 的 角度 来 说 ， 上 述 性 能 都 是 非常 需要 的 。 因 而 LMS 算法 能 够 经 受 住 时 间 的 考验 就 
一 点 也 不 奇怪 了 。 

本 章 中 ， 我 们 推导 LMS 算法 的 最 基本 形式 并 讨论 其 优点 和 局 限 。 更 重要 的 是 ， 这 里 所 讨 
论 的 素材 为 下 一 章 将 要 讨论 的 反 向 传播 算法 提供 了 基础 素材 。 


3.2 LMS 算法 的 滤波 结构 


图 3. 1 是 一 个 未 知 动态 系统 的 方 框图 ， 由 包含 元 素 zx; vee 2) ye ,zm(i) 的 输入 向 量 所 刺 
激 ， 其 中 i 是 刺激 〈 激 励 ) 应 用 于 系统 时 的 瞬间 时 间 。 时 间 索 引 i 二 1,2,…,n。 作 为 对 刺激 的 
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响应 ， 系 统 产 生 一 个 输出 y( 让 作为 响应 。 因 此 ， 此 系统 的 外 部 行为 由 下 述 数 据 集 描述 : 
TK dG); i = 1.2.0 ynyere} (3.1) 
其 中 
xi) = [r Gs (i) ,rm (i) (3. 2) 
组 成 9 的 样本 对 根据 一 个 未 知 概率 法 则 是 同 分 布 的 。 输 入 向 量 x KS EK M 称 为 输入 空间 的 维 
& (dimensionality of the input space)， 或 简称 为 输入 维 数 (input dimensionality). 


x) ODO— 
xf) 
xn) 

图 3.1 a) 未 知 动态 系统 ; b) 系统 自 适应 模型 的 信号 流 图 


刺激 向 量 x(z) 能 够 以 两 种 根本 不 同 的 方式 出 现 ， 一 种 是 空间 的 ， 另 一 种 是 时 间 的 : 

。 xi 的 M 个 元 素 代表 空间 中 的 不 同 点 ， 在 这 种 情况 下 我 们 称 x(i) 为 数据 的 瞬 像 (snap- 

shot). 

。 xO M 个 元 素 代 表 在 时 间 上 均匀 分 布 的 某 个 刺激 的 现在 和 MD 个 过 去 的 值 组 成 

的 集合 。 

我 们 面 对 的 问题 是 如 何 通 过 建立 一 个 简单 线性 神经 元 来 设计 未 知 动态 系统 的 一 个 多 输入 - 
单 输出 模型 。 这 个 神经 元 模型 是 在 一 个 算法 的 影响 下 运行 的 ， 此 算法 控制 对 神经 元 的 突 触 权 值 
的 必要 调整 ， 同 时 记 住 以 下 要 点 : 

。 此 算法 从 任意 设 定 的 一 个 神经 元 突 触 权 值 开始 。 

。 为 响应 系统 行为 的 统计 变化 ， 突 触 权 值 的 调整 是 建立 在 连续 的 基础 之 上 的 《〈 即 把 时 间 

加 进 算法 中 )。 

。 调整 突 触 权 值 的 计算 在 长 度 为 一 个 采样 周期 的 时 间 段 里 完成 。 

这 样 描述 的 神经 元 模型 称 为 自 适 应 滤波 器 (adaptive filter) 。 虽 然 是 在 作为 系统 辨识 〈system 
identification〉 的 任务 背景 下 给 出 的 描述 ， 但 自 适 应 滤波 器 的 特征 还 是 具有 很 广泛 的 应 用 。 

图 3. lb 是 一 个 自 适应 滤波 器 的 示意 图 ， 它 的 运行 由 两 个 连续 过 程 组 成 : 

1. 过 滤 过 程 ， 涉 及 两 个 信号 计算 : 

。 一 个 输出 ， 记 为 y(i)， 它 被 产生 以 响应 刺激 向 量 O MPR, Ma@sn@s, 

aru). 

。 一 个 误差 信号 ， 记 为 e(i)， 它 是 通过 比较 输出 y(i) 和 未 知 系统 的 相应 输出 aC 让 而 获得 

的 。 从 效果 上 讲 ，d( 让 可 作为 一 个 期 望 响应 信号 (desired response) 或 者 目标 《tar- 
get) 信号。 

2. 自 适应 过 程 ， 包 括 根据 误差 e(i) 对 神经 元 突 触 权 值 的 自动 调整 。 

因此 ， 这 两 个 共同 运作 过 程 的 组 合 构成 了 一 个 围绕 神经 元 运作 的 反馈 环 〈feedback loop), 
如 图 3. lb Bras. 

因为 神经 元 是 线性 的 ， 输 出 yj 恰 为 诱导 局 部 域 v(i)， 即 


yD = 0G) = Dw Gri) (3.3) 









x) 





d(i) 





a) 
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其 中 ww (站 ,ws i) ot ,wu(i) 表示 在 时 刻 i 神经 元 的 M 个 突 触 权 值 。 利 用 矩阵 形式 可 以 把 yG) 
表示 为 向 量 x( 让 和 wC 引 的 内 积 形式 : 

yli) = x (DD wi) (3. 4) 
这 里 

, wi) = [w G), w G) ,tou D] 

注意 这 里 突 触 权 值 的 记号 已 被 简化 ， 它 不 包括 附加 的 标识 神经 元 的 下 标 ， 因 为 我 们 只 需要 处 理 
单个 神经 元 。 当 只 需要 考虑 单个 神经 元 时 ， 全 书 都 采用 这 种 记号 。 神 经 元 的 输出 y( 引 要 与 未 知 
系统 在 时 刻 i 的 相应 输出 4(i) 作 比 较 。 通 常 ，y(i) 与 do 不 等 ; 因此 它们 的 比较 结果 得 到 了 
误差 信号 : 

ei) = dCi) — yli) (3.5) 
误差 信号 e(i) 用 来 对 神经 元 突 触 权 值 的 调整 进行 控制 的 方式 是 由 用 于 导出 自 适应 滤波 算法 的 代 
价 函 数 决 定 的 。 这 个 问题 与 最 优化 紧密 相关 。 因 此 可 以 回顾 一 下 无 约束 最 优化 方法 。 这 些 材料 
不 仅 可 以 应 用 在 线性 自 适 应 滤波 器 上 ， 还 可 以 应 用 在 一 般 的 神经 网 络 上 。 


3.3 无 约束 最 优化 : 回顾 


考虑 代价 函数 名 (w)， 它 是 一 个 对 未 知 权 值 (BRO 向 量 w 连续 可 微 〈continuously differ- 
entiable) 的 函数 。 函 数 (w) 映 射 w 的 元 素 为 实数 。 它 是 一 种 度量 ， 用 来 选择 自 适应 滤波 算法 
HM SSO 向 量 w 使 得 它 以 最 优 方式 运行 。 我 们 想 找 到 一 个 最 优 解 w 满足 条 件 
BW’ ) < Ew) (3. 6) 
也 就 是 说 ， 需 要 解决 一 个 无 约束 的 优化 问题 ， 即 


选择 适当 的 权 值 向 量 wR DR BREW). | 








最 优 性 的 必要 条 件 是 : 
Vé(w*) =0 . (3.7) 
这 里 V 是 梯度 算 子 (gradient operator)， 
[2 ə ay 
v EE z] (3. 8) 
同时 VE(w) 是 代价 函数 的 梯度 向 量 (gradient vector), 
_[aé d8.. 287 
VéCw) E E "Bur , Pe] (3. 9) 


(对 于 向 量 的 微分 在 本 章 结束 部 分 的 注释 1 中 讨论 ) 。 
一 类 特别 适合 自 适应 滤波 器 设计 的 无 约束 最 优化 算法 是 以 局 部 选 代 下 降 (iterative de- 
scent) 思想 为 基础 的 : 
从 一 个 初始 估计 值 w(0) 开 始 ， 产 生 一 系列 权 值 向 量 Ww(1),Ww(2),…，, RAK BREW) 
在 算法 的 每 次 选 代 中 都 要 下 降 ， 即 
(win 十 1)) < ECw(n)) (3. 10) 
这 里 W(n) 是 权 值 向 量 的 旧 值 而 wln 十 1) 是 它 的 更 新 值 。 


我 们 希望 算法 最 终 收敛 到 最 优 解 w* 。 我 们 说 “希望 ”是 因为 除非 采取 特别 的 预防 措施 ， 
算法 有 可 能 发 散 〈( 即 变 得 不 稳定 》。 

在 这 一 节 我 们 描述 三 种 以 从 代 下 降 思 想 这 种 或 那 种 形式 为 基础 的 无 约束 最 优化 方法 
(Bertsekas, 1995). 
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最 速 下降 法 
在 最 速 下 降 法 中 ， 对 权 值 向 量 w 的 连续 调整 是 在 最 速 下 降 的 方向 进行 的 ， 即 它 是 与 梯度 向 
量 V8(Cw) 方 向 相反 的 。 为 了 表示 的 方便 ， 记 为 
g = Vé(w) (3.11) 
因此 ， 最 速 下 降 法 一 般 表示 为 
w(n+ 1) = wn)— mn) (3. 12) 
这 里 了 是 一 个 正常 数 ， 称 为 步 长 (stepsize) 或 学 习 率 参数 (learning- rate parameter), g(n) 
是 在 wn) Sb AY 6 BE Te GE. ZEW GEAR a Bil n +1 的 过 程 中 算法 应 用 修正 : 
Aw(n) = wn + 1) — wn) =— 7g(n) 
RG. 13) 实 际 上 是 导言 中 描述 过 的 误差 修正 公式 的 标准 形式 。 
为 了 证 明 最 速 下 降 法 的 公式 满足 式 (3. LO MER PRA. RIA wo) 附近 的 一 阶 泰勒 
(Taylor) 级 数 展 开 来 逼近 雪 (w(z 十 1)) ， 即 
Elwin + 1)) œ~ ECw(n)) +g (n) Aw(n) 
上 和 式 对 小 的 7 了 是 适用 的 。 在 这 个 近似 关系 式 中 代入 式 (3. 13) 得 到 : 
Ewan 1)) œ ECw(n)) 一 qg (gln) = €(w(n)) — 9 ll gcn) ||? 
上 式 表明 ， 对 正 的 学 习 率 参数 y RAAR ERER PREM. E E E HE E E E E A 
的 ， 只 有 当 学 习 率 足够 小 时 才 是 正确 的 。 
最 速 下 降 法 收敛 到 最 优 解 w 的 速度 是 很 慢 的 。 此 外 ， 学 习 率 参数 y 对 收敛 行为 有 重要 影响 : 
。 当 7 小 的 时 候 ， 算 法 的 瞬时 响应 是 平缓 的 〈overdamped)， 这 是 由 于 wC) 的 轨迹 是 必 
平面 的 一 个 光滑 曲线 ， 如 图 3. 2a 所 示 。 
。 当 ww 大 的 时 候 , 算法 的 瞬时 响应 是 剧烈 的 (underdamped)， 这 是 由 于 wn) 的 轨迹 是 锯 
E (振荡 〉 形 的 ， 如 图 3. 2b 所 示 。 
。 当 7 超 过 了 某 一 临界 值 时 ， 算 法 是 不 稳定 的 《〈 即 不 收敛 ) 。 


(3. 13) 












































4.0 l + 4.0 上 | 
S S 
= 0.0 + m + = 0.0 t | 
ayn 
-4.0 -4.0 L + 
4.0 0.0 4.0 4.0 0.0 4.0 
w(n) w(n) 
a) b) 


图 3.2 ”最速 下 降 法 关于 学 习 率 参数 的 不 同 值 在 二 维 空间 的 轨迹 。a) 小 的 gs b) 大 的 g Ew Aw 是 
权 值 向 量 w 的 元 素 ; 它们 都 位 于 WW 平面 中 


牛顿 法 

”下面 介绍 牛顿 法 (Newton’s method)， 这 是 更 复杂 的 最 优化 技术 。 牛 顿 法 的 基本 思想 是 
最 小 化 代价 函数 6(w) 在 当前 点 wn) 周 围 的 二 次 近似 值 ， 最 小 化 在 算法 的 每 次 迭代 中 都 要 进行 。 
具体 来 说 ， 利 用 代价 函数 在 点 w(n) 周 围 的 二 次 泰勒 级 数 展开 式 ， 我 们 得 到 : 


AEW) = Ewa + 1)) — Ewan) ) og (n)Awn) 十 F Aw? Cn HO) aw(n) (3. 14) 
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和 以 前 一 样 ，g(z) 是 代价 函数 8Cw) 在 点 w(n) 处 的 MX1 梯度 向 量 。 和 矩阵 HCn) 是 多 Cw) 在 w) 
HY m 47 m 列 Hessian 和 矩阵。 各 (w) 的 Hessian MME MH: 


























| o& SE a FE | 
dwi Ow dw, Ow, Dwm 
oO € FE a FE 
H = V Elw) = | dw Ow Ow OW? OWm (3. 15) 
FE FE wee FE 
[OwWMOW, AWwm OA? ows 


式 (3.15) 需 要 代价 函数 名 (w) 关 于 w 的 元 素 二 阶 连续 可 微 。 将 式 (3. 14) 对 Aw 微分 '"， 当 
gna) +H(n)Aw(n) = 0 
时 ， 我 们 最 小 化 了 改变 量 Aw), HERA X Aw(z) 的 方程 得 到 : 
Aw(n) =— H™'(n)g(n) 
也 就 是 
wlan t 1) = wln) + Awn) = w(n) — H (n)g(n) (3. 16) 
这 里 H (n) ECW) A Hessian HHH. 
一 般 来 说 ， 牛 顿 法 收敛 得 很 快 ， 而 且 不 会 出 现 最 速 下 降 法 有 时 会 出 现 的 锯齿 形 情况 。 但 是 ， 
应 用 牛顿 法 时 ，Hessian 矩阵 必须 对 每 个 ”都 是 正定 矩阵 。 遗 憾 的 是 ， 一 般 不 能 保证 在 算法 的 每 
次 迭代 中 H(n) 都 是 正定 矩阵 。 假 如 Hessian 4# H(n) 不 正定 ， 对 牛顿 法 进行 修正 就 有 必要 
(Powell, 1987; Bertsekas，1995)。 在 很 多 时 候 ， 和 牛顿 法 的 最 主要 局 限 在于 其 计算 复杂 度 。 
Gauss-Newton 法 
为 了 处 理 牛顿 法 的 计算 复杂 度 而 不 对 其 收敛 行为 做 太 严 重 的 让 步 ， 可 以 使 用 Gauss New- 
ton 法 。 为 了 应 用 这 一 方法 ， 我 们 采用 表示 为 误差 平方 和 的 代价 函数 。 令 
ew) = Tye (3. 17) 


这 里 尺度 因子 1/2 是 为 了 简化 下 面 的 分 析 。 此 公式 中 所 有 的 误差 项 都 是 以 权 值 向 量 w 为 基础 计 
算得 来 的 ， 这 里 w 在 遍及 ISS 的 全 部 观察 区 间 内 固定 。 
误差 信号 e( 切 是 可 调 权 值 向 量 whet, ATHREA w(n)， 通 过 引 和 人 下面 新 的 项 来 线性 
ik eD XT w 的 依赖 性 : 
e' (isw) = eli) 4 Ea X (Ww— WD)), i=1,2, n 


OW Jw=wm 
用 矩阵 记号 可 写成 等 价 的 形式 : 
e (mw) = eln) + J(n) (w— wn)) (3. 18) 





其 中 e(n) 是 误差 向 量 
e(n) = [eC(l1),e(2), ,el(n) |? 


IM  e(n) K) nXm Jacobi HK: 








ge) Bel), e 
Ow, OW, OWM 
Be(2) Ge(2) wee Oe(2) 
Jin) = | ow OW? dwm (3. 19) 
| ðw OU» Owe | wow 
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Jacobi 矩阵 J(m Æ mXn 梯度 矩阵 Ve(z) 的 转 置 ， 这 里 
Ve(n) 一 [LVe(1),Ve(2)，…Ve(a)] 
现在 更 新 后 的 权 值 向 量 wat DEAK 


w(n+1) = arg min{ = | e (nw) ||? (3. 20) 
HARG. 18) 来 评估 e (2,w) 的 欧 几 里 得 范 数 的 平方 ， 得 到 
1 lew ||? = + eD ||? + EDI Cw— wan) + Fw WODI DI Cw — wn)) 


因此 ， 将 以 上 表达 式 对 w 求 微 分 并 设 结果 为 零 ， 得 到 
Vide) + F (WJ (Cn) (w— wn)) = 0 
从 这 个 方程 中 解 出 w， 考 虑 到 式 (3. 20), TRA: 
wnt 1) = win) — JI IG) ST Celna) (3. 21) 
上 式 描 述 了 Gauss- Newton 方法 的 纯粹 形式 。 
不 像 牛顿 法 必须 知道 代价 函数 如 (n) 的 Hessian 矩阵 ，Gauss- Newton 法 只 需要 知道 误差 向 
量 e(n) 的 Jacobi ERE., BÆ, 为 了 使 Gauss-Newton RARA, EERE S DSI 必须 
AEA RH. 
关于 后 一 点 ， 我 们 认识 到 J(n)J(n) 总 是 非 负 定 的 。 为 了 保证 它 是 非 奇 异 的 ，Jacobi 矩阵 
Jn) 的 行 秩 必 须 是 n 也 就 是 说 ， 式 (3.19) 中 J(n) 的 n 行 必须 是 线性 无 关 的 。 遗 憾 的 是 ， 我 
们 并 不 能 保证 这 个 条 件 总 能 满足 。 为 了 防止 J(n) 的 秩 亏 损 ， 通 常 的 办 法 是 给 矩阵 J OIG mM 
一 个 对 角 和 矩阵 SI， 其 中 工 是 单位 和 矩阵。 参数 $ 是 一 个 小 的 正常 数 ， 它 的 选择 必须 保证 
JT(n)Jln) + 对 所 有 7 都 是 正定 的 
在 这 个 基础 上 ，Gauss-Newton 法 以 下 面 的 微小 修正 形式 来 实现 : 
wln + 1) = wa) — Fd) JG) + oD J eln) (3. 22) 
当选 代 次 数 n AR UBER CIT» HEIL ON 的 影响 是 逐渐 减少 的 。 同 时 注意 递归 式 (3. 22) 是 修正 代 
价 函 数 


Ew = {DeD alw ww l?) (3. 23) 


的 解 ， 其 中 wm) 是 权 值 向 量 w( 引 的 当前 值 。 

在 信号 处 理 的 文献 中 ， 式 (3. 22) 中 的 增加 项 OU 称 为 对 角 加 载 (diagonal loading) 。 这 一 项 
的 增加 是 为 了 将 代价 函数 Cw) 扩展 为 式 (3. 23) 的 方式 ， 这 里 我 们 就 有 两 个 项 (忽略 尺度 因子 
1/2): 


。 第 一 项 1 。( 门 是 误差 平方 的 和 ， 依 赖 于 训练 数据 。 


i= 


。 第 二 项 包含 欧 几 里 得 范 数 的 平方 w 一 w(n) ‖ *， 依 赖 于 滤波 器 结构 。 实 际 上 ， 这 一 项 
相当 于 稳定 器 (stabilizer), 
尺度 因子 5 通常 称 为 正则 参数 (regularization parameter) ， 代 价 函 数 的 结果 修正 相应 地 称 
为 结构 正则 化 (structural regularization) 。 正 则 化 问题 将 在 第 7 章 详细 讨论 。 


3.4 SARE Re 


第 2 章 讨 论 了 通常 的 最 小 二 乘 估计 器 ， 那 里 利用 极 小 化 的 传统 方法 来 从 环境 的 观测 模型 中 找 
到 最 小 二 乘 解 。 为 了 和 本 章 采 用 的 术语 相 一 致 ， 我 们 将 之 称 为 最 小 二 乘 滤波 器 (least- squares fil- 
ter) 。 而 且 ， 我 们 将 利用 Gauss- Newton 法 来 重新 推导 这 个 滤波 器 的 公式 。 

我 们 利用 式 (3. 3) 和 式 (3. 4) 来 定义 如 下 的 误差 向 量 : 
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eln) = d(n) — [x(1),x(2),°*,x(m) J’ wn) = d(n) — Xn) wln) (3. 24) 
其 中 d(n) 是 nX1 的 期 望 响应 向 量 ， 
d(n) = [d(1).d(2),++,d(n) ]* 
XC(n) 是 nXM 的 数据 矩阵 ， 
X(n) = [ x(n) , x2) ,x Cn) ]T 
误差 向 量 em) X w(n) 取 微分 得 到 梯度 矩阵 : 
V eln) =— X" (n) 
相应 地 ，e(n) 的 Jacobi 矩阵 是 
J(n) =— X(n) (3. 25) 
因为 误差 式 (3. 18) 对 权 值 向 量 woa 已 经 是 线性 的 ， 如 下 所 示 的 Gauss- Newton 法 在 一 次 迭代 
Fa WS, HRG. 24) 和 式 (3. 25) 代 和 人 式 (3. 21) 得 到 
wln + 1) = wn) + CX? (n) X(n)) XT (n) Cdn) — Xn Wn) ) 


= (X7 (n)X(n)) X (n)d(n) (3. 26) 
项 (XT(n)X(n))-!X'(n) 被 看 作 是 数据 矩阵 XO W Cpseudoinverse), Bp’ 
Xt Cn) = (Xn)Xn)) XT Cn) (3. 27) 
因此 ， 可 以 把 式 (3. 26) 改 写 为 紧凑 的 形式 : 
wln t 1) 一 X (n)d(n) (3. 28) 


这 个 公式 表示 了 下 面 所 陈述 的 一 个 简便 途径 : 


权 值 向 量 wln 十 1) 求 解 定义 在 持续 时 间 n 的 一 个 观察 区 间 上 的 线性 最 小 二 乘 问题 ， 是 如 下 
两 项 的 乘积 : HX (n) 和 期 望 的 响应 向 量 da). 


Wiener 滤波 器 : 遍历 环境 下 线性 最 小 二 乘 滤波 器 的 极限 形式 
Aw, 表示 线性 最 小 二 乘 滤波 器 关于 观测 数 n 的 极限 形式 ， 人 允许 n 趋 于 无 穷 。 可 以 利用 式 


(3. 26 ) 得 到 ， 
w, 一 limw(2 十 1) = limCX™(n)X(n)) 71 XT (n) d(n) 


= lim( XT) Xm)) x lim LXT (nan) (3. 29) 
现在 假设 输入 向 量 x(i) 和 相应 的 期 望 响应 d(i) 来 自 于 联合 遍历 (ergodic) FRA. R 


们 可 以 用 时 间 均 值 来 代替 总 体 均 值 。 由 定义 ， 输 入 向 量 x(z) 的 相关 矩阵 (correlation matrix) 


的 总 体 平均 形式 是 
Ra = E[x(i)x” (7)] (3. 30) 


并 且 ， 相 应 地 ， 输 入 向 量 x(i) 和 期 望 响 应 dz) 之 间 的 互相 关 向 量 (cross- correlation vector) 


的 总 体 平 均 形 式 是 
ra E[x(i)d(i) ] (3. 31) 


其 中 上 表示 期 望 算 子 。 从 而 ， 在 遍历 假设 下 ， 有 
Ra = lim LXX Cn) 
和 
Ta 一 limX (n)d(n) 
相应 地 ， 可 以 把 式 (3. 29) 改 写 为 用 总 体 平 均 相关 参数 来 表示 : 
w, = Rire . (3. 32) 
这 里 RAKE RL. KG. 32) 是 由 式 (2. 32) 定 义 的 最 小 二 乘 解 的 总 体 平均 版 本 。 
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权 值 向 量 w, 称 为 线性 最 优 滤波 问题 的 维 纳 解 (Widrow and Stearns, 1985; Haykin, 2002), 
因此 ， 我 们 可 以 做 以 下 的 陈述 : 
对 一 个 遍历 过 程 ， 当 观察 样本 数 趋 于 无 穷 时 ， 线 性 最 小 二 乘 滤波 器 渐进 趋 于 维 纳 滤波 器 。 


设计 维 纳 滤波 器 需要 二 阶 统计 量 的 知识 : 输入 向 量 x(n) PO RL A x(n) 与 期 望 响应 
d(n) 的 互相 关 向 量 rz 。 但 是 ， 在 实际 遇 到 的 很 多 环境 下 ， 这 些 信 息 都 是 未 知 的 。 我 们 可 以 利 
用 线性 自 适 应 滤波 器 (linear adaptive filter) 来 处 理 未 知 的 环境 ， 自 适应 在 这 里 的 意思 是 滤波 
器 能 够 调整 自己 的 自由 参数 来 响应 环境 的 统计 变化 。 在 连续 时 间 基 础 上 做 这 类 调整 的 一 个 流行 
的 算法 是 最 小 均 方 算法 ， 下 面 来 讨论 这 一 算法 。 


3.5 最 小 均 方 算法 
最 小 均 方 (least mean square, LMS) 算法 的 建立 是 极 小 化 代价 函数 的 瞬时 值 ， 代 价 函 数 为 








E) 一 Fen) (3. 33) 
XE eln) n 时 刻 测 得 的 误差 信和 号。 把 EW) 对 权 值 向 量 w 求 微分 得 到 
agh» = e(n) aec (3. 34) 
如 同 在 最 小 二 乘 滤波 器 上 一 样 ，LMS 算法 运行 在 一 个 线性 神经 元 上 ， 可 以 把 误差 信号 表示 为 : 
eln) = d(n) — x (n) W(n) (3. 35) 
因此 
eln) _ 
awn) x(n) 
和 
OEW) 
Sim 一 x(n)e(n) 
把 后 者 作为 梯度 向 量 的 一 种 瞬间 估计 instantaneous estimate) , 可 以 记 
&(n) =— x(n)el(n) (3. 36) 
最 后 ， 利 用 式 (3. 36) 作 为 式 (3. 12) 中 的 最 速 下 降 法 的 梯度 向 量 ， 可 以 写 出 LMS 算法 公式 : 
Win + 1) = Win) nxn) eln) (3. 37) 


这 里 值得 注意 的 是 学 习 率 参数 7 的 倒数 可 以 用 于 度量 LMS 算法 的 记忆 (memory): 给 了 赋 的 
值 越 小 ，LMS 算法 将 记忆 的 过 去 数据 就 越 多 。 因 此 ，7 值 小 的 话 ，LMS 算法 执行 得 更 精确 ， 
但 算法 的 收敛 速度 慢 。 

在 式 (3. 37) 的 推导 中 ， 我 们 用 W (ma 代替 wCn) 来 强调 这 样 一 个 事实 : 利用 最 速 下 降 法 可 以 
得 到 一 个 权 值 向 量 ， 而 LMS 算法 产生 该 权 值 向 量 的 一 个 瞬时 舍 计 值 。 所 以 使 用 LMS 算法 
时 我 们 牺牲 掉 最 速 下 降 法 的 一 个 明显 特征 。 在 最 速 下 降 法 中 ， 对 一 个 给 定 的 7， 权 值 向 量 wn) 
在 权 值 空 间 中 遵循 一 个 明确 定义 的 轨迹 。 对 比 之 下 ， 在 LMS 算法 中 ， 权 值 向 量 W(x) 则 跟踪 一 
个 随机 的 轨迹 。 由 于 这 个 原因 ，LMS 算法 有 时 也 被 称 为 “随机 梯度 算法 ”。 当 LMS 算法 的 选 


代 次 数 趋 于 无 限时 ，w(n) 在 维 纳 解 w 周围 随 表 3.1 LMS 算法 小 结 

机 行走 (布朗 运动 )。 一 个 重要 的 事实 是 ， 与 TAR BO . 
最 速 下 降 法 不 同 ，LMS 算法 不 需要 知道 环境 用 户 选择 参数 ，9 

的 统计 特性 。 从 实际 角度 来 看 ，LMS 的 这 一 PRE Bee 

特征 是 非常 重要 的 。 eln) =d(n) — WT nxn) 


表 3. 1 基于 式 (3.35) 和 式 (3.37) 对 LMS ——__#@r Daal amwe 一 
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算法 做 了 小 结 ， 它 清楚 表明 这 种 算法 的 简单 性 。 如 该 表 所 示 ， 对 于 算法 的 初始 化 ， 可 以 简单 
地 设 算法 中 的 权 值 向 量 初始 值 为 Ww(0) 二 0。 
LMS 算法 的 信号 流 图 表示 

结合 式 (3. 35) 和 式 (3. 37)， 可 以 把 LMS 算法 中 的 权 值 向 量 演变 过 程 表示 如 下 : 

Wa +1) = Wn) + nx Ladn) — x Cn) Cn) ] 
= [1— px nd x" (Cn)] Wn) + xd) 
这 里 工 是 单位 和 矩阵。 通过 运用 LMS 算法 ， 我 们 认识 到 
Win) = ze? [Wn+D] (3. 39) 

这 里 z-! 是 单位 时 间 延 迟 算 子 (unit- time delay operator), KRET. MARG. 38) 和 式 
(3. 39) ， 我 们 就 可 以 用 图 3. 3 描绘 的 信号 流 图 来 表示 LMS 算法 。 这 个 信号 流 图 揭示 LMS 算法 
是 随机 反馈 系统 的 一 个 实例 。 反 馈 的 出 现 对 LMS 算法 的 收 全 行为 有 重要 影响 。 


(3. 38) 











x(n) dn) > Ww 
2 > 





mx (n) 
图 3.3 LMS 算 法 的 信号 流 图 表示 


3.6 用 马尔 可 夫 模 型 来 描画 LMS 算法 和 维 纳 滤波 器 的 偏差 


为 了 给 LMS 算 法 提供 一 种 统计 分 析 ， 我 们 发 现 利 用 下 式 定义 的 权 值 误差 向 量 (weight-er- 
ror vector) 更 加 方便 : 
eln) = w — W(n) (3. 40) 
其 中 w 是 由 式 (3. 32) 定 义 的 最 优 维 纳 解 ， 将 (n) 是 相应 的 由 LMS 算法 计算 的 权 值 向 量 的 估 
计 。 因此 ， 利 用 术语 s(n)， 假 设 其 为 一 个 状态 (state)， 可 以 将 式 (3. 38) 重 写 为 紧凑 形式 : 


eln +1) = Amelan) + F(n) (3. 41) 
这 里 ， 我 们 有 
ACn) = I— x(x" (n) (3. 42) 
Ep RAME., RG. 41) 右 边 附 加 的 噪声 项 由 下 式 定 义 : 
f(n) =— yxX(n)e, (n) (3. 43) 
其 中 
e(n) = d(n) — wi x(n) (3. 44) 
是 由 维 纳 滤波 产生 的 估计 误差 。 


式 (3. 41) # aR LMS 算法 的 马尔 可 夫 模 型 〈Markov model). 这 一 模型 的 特征 如 下 所 示 : 
。 模型 的 更 新 状态 (updated state)， 由 向 量 s(n 十 1) 定 义 ， 依 赖 于 老 的 状态 eC), HA 
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依赖 性 由 转移 矩阵 (transition matrix)A(n) 定 义 。 
。 在 时 间 ”上 状态 的 演化 被 内 部 所 产生 的 噪声 fa) 所 扰动 ， 这 一 噪声 扮演 着 “驱动 力 ” 
的 角色 。 

图 3.4 给 出 了 表示 这 一 模型 的 向 量 值 信号 流 图 。 标 志 为 xz 'I 的 分 支 表 示 模 型 的 记忆 ，z 
作为 单位 时 间 延 迟 算 子 ， 由 下 式 定义 ， 

z [elnt 1)] = eln) (3.45) 
和 图 3. 3 相 比 ， 这 个 图 中 用 紧凑 形式 重点 强调 
了 LMS 算法 中 的 反馈 过 程 。 

图 3.4 的 信号 流 图 以 及 相应 的 方程 提供 了 
在 小 学 习 率 参数 7 的 假设 下 LMS 算法 收敛 性 
分 析 的 框架 。 然 而 ， 在 进行 这 一 分 析 之 前 ， 我 
们 简要 地 介绍 实现 这 一 目标 所 需 的 两 个 基础 知 
识 : 在 3.7 节 中 介绍 的 朗 之 万 方程 ， 以 及 随后 
的 3. 8 节 中 的 Kushner 直接 平均 法 。 有 了 这 两 
个 基础 知识 ， 我 们 将 在 3.9 节 中 继续 学 习 图 3.4 表示 由 式 (3. 41) 所 描述 的 
LMS 算法 的 收敛 分 析 。 马尔 可 夫 模 型 的 信号 流 图 


3.7 朗 之 万 方程 : 布朗 运动 的 特点 


对 3.5 节 结 束 部 分 的 评论 用 更 精确 的 术语 重新 叙述 ， 考 虑 稳定 性 和 收敛 性 ， 我 们 可 以 说 
LMS 算法 (对 足够 小 的 力 从 未 达到 完美 的 稳定 或 者 收 伍 条件。 而且， 在 大 量 的 和 迭代 时 间 步 n 
之 后 ,算法 到 达 “ 伪 平衡 ” 条件， 这 从 定性 上 讲 ， 可 由 算法 围绕 着 维 纳 解 执行 布朗 运动 来 描 
述 。 这 一 类 统计 行为 可 通过 非 平衡 热力 学 : 的 朗 之 万 方程 (Langevin equation) KRM HR. 
因而 ， 我 们 岔 开 一 下 简要 地 介绍 这 一 重要 方程 。 

A vb 定义 质量 为 za 的 宏观 粒子 陷 人 粘 滞 铃 的 速度 。 假 设 粒子 足够 小 以 使 其 由 热 起 伏 而 
来 的 速度 被 视 为 重要 的 。 然 后 ， 由 均 分 热力 学 原理 (equipartition law of thermodynamics), ， 粒 
子 的 平均 能 量 由 下 式 定义 : 


FS eeo] = ksT 对 所 有 连续 时 间 : (3. 46) 


其 中 ks W Boltzmann 常数 ，T 为 绝对 温度 (absolute temperature). 粘 滞 铃 中 分 子 作 用 于 粒子 
的 总 驱动 由 两 部 分 组 成 : 

1. 依据 Stoke 定律 (Stoke’s law) 的 等 于 一 gv(t) 的 阻尼 力 (damping force), 其 中 a EE 
RAR; 

2. 涨 落 力 Cluctuating force) Fj(t)， 其 性 质 是 平均 指定 的 。 

粒子 的 运动 方程 在 缺少 外 部 驱动 时 由 下 式 给 定 : 


m a =— av(t) +F) 
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ae =— y(t) + PQ) (3. 47) 


其 中 
(3. 48) 
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(3. 49) 


rot) = ER 
m 


项 T(t) 是 每 单位 质量 涨 落 力 (fluctuating force per unit mass); 因为 它 依赖 于 组 成 粒子 的 极为 
大 量 的 原子 数 的 位 置 ， 所 以 它 是 一 个 统计 驱动 力 ， 它 处 于 常 的 不 规则 运动 状态 。 式 (3. 47) 称 为 
朗 之 万 方程 (Langevin equation), TCO) A A25 A (Langevin force)。 朗 之 万 方程 描述 了 在 
粘 滞 铃 中 所 有 时 间 下 粒子 的 运动 (如果 其 初始 条 件 是 指定 的 )， 它 是 描述 非 平衡 热力 学 的 第 一 
个 数学 公式 。 

在 3.9 节 中 ， 我 们 将 证 明 LMS 算法 的 一 个 变换 版 本 具有 和 朗 之 万 方程 的 离散 时 间 版 本 相 
同 的 数学 形式 。 但 在 证 明之 前 ， 需 要 给 出 下 一 个 基础 知识 。 


3.8 Kushner 直接 平均 法 


式 (3.41) 的 马尔 可 夫 模 型 是 非 线 性 随机 差分 方程 (nonlinear stochastic difference equa- 
tion) 。 这 一 方程 是 非 线性 的 是 因为 转移 矩阵 AC) RRA x(n) PRR x(n) x? (0). A 
此 ， 权 值 误差 向 量 s(n 十 1) 对 于 x(n) 的 依赖 性 和 释 加 原则 相 冲 突 ， 而 这 一 原则 是 线性 的 需要 。 
WH, 方程 是 随机 的 是 因为 训练 样本 (x(n), dn) 是 从 随机 环境 中 取得 的 。 有 了 这 两 个 事 
实 ， 我 们 发 现 对 LMS 算法 作 严 格 的 统计 分 析 是 很 困难 的 任务 。 

然而 ， 在 一 定 的 条 件 下 ，LMS 算法 的 统计 分 析 能 够 通过 将 Kushner 直接 平均 法 (Kushner’”s 
direct- averaging method) 应 用 于 式 (3. 41) 的 模型 而 显著 地 简化 。 对 这 一 方法 的 正规 陈述 ， 我 们 做 
如 下 说 明 (Kushner, 1984); 


考虑 由 马尔 可 夫 模 型 所 描述 的 随机 学 习 系 统 : 
eln +1) = ACn)eln) fn) 
其 中 ， 对 一 些 输入 向 量 x(n)， 我 们 有 
A(n) = I— x(n x (n) 
而 且 附 加 骂 声 fCn) 是 由 学 习 率 参数 7 线性 拉 伸 的 。 有 
。 学 习 率 参数 了 是 充分 小 的 。 
。 附加 噪声 fC(n) 本 质 上 独立 于 状态 eln), 修正 马尔 可 夫 模 型 的 状态 演化 由 下 面 两 个 公 
RRM: 
co(n +1) = A(nec(n) + fy (n) (3. 50) 
ACn) = 工 一 7E[x(n)x"(n)] (3. 51) 
实际 上 ， 对 于 所 有 的 ?和 原始 的 马尔 可 夫 模 型 是 一 样 的 。 


式 (3. 51) 的 确定 矩阵 A(n) 是 修正 马尔 可 夫 模 型 的 转移 和 矩阵， 我 们 用 eo(n) 来 表示 修正 马尔 
可 夫 模 型 的 状态 ， 用 来 强调 这 一 模型 随时 间 的 演化 仅 在 微小 的 学 习 率 参数 7 的 有 限 情况 下 等 同 
于 原始 马尔 可 夫 模 型 。 

式 (3. 50) 和 式 (3. 51) 的 证 明 在 习题 3. 7 中 给 出 ， 假 设 饥 历 性 〈 即 用 时 间 平 均 来 代替 总 体 平 
均 ) 。 由 这 里 的 讨论 可 以 充分 说 明 : 

1. 如 前 所 述 ， 当 学 习 率 参数 1 小 的 时 候 ，LMS 算法 具有 长 记忆 Cong memory), Alt, 
更 新 状态 so(n 十 1) 的 演化 可 以 通过 时 间 步 一 步 一 步 追 踪 所 有 的 路 径直 到 初始 条 件 e0). 

2. 当 ? 小 的 时 候 ， 可 以 在 am Cn 十 1) 的 展开 式 序列 中 忽略 二 阶 和 高 阶 项 。 

3. 最 后 ， 式 (3. 50) 和 式 (3. 51) 中 的 陈述 可 以 通过 调用 遍历 性 来 得 到 ， 此 时 总 体 平 均 为 时 
间 平 均 所 替代 。 
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3.9 小 学 习 率 参数 下 统计 LMS 学 习 理 论 


现在 我 们 已 经 有 了 Kushner 直接 平均 法 ， 该 到 建立 LMS 算法 的 统计 分 析 原 则 的 阶段 了 。 
我 们 做 三 个 合理 的 假设 : 
假设 I: 学习 率 参 数 n 是 小 的 
通过 这 一 假设 ,我 们 证 明 可 以 应 用 Kushner 直接 平均 法 一 因此 采用 式 (3. 50) 和 式 (3. SDAY 
修正 马尔 可 夫 模 型 作为 LMS 算法 的 统计 分 析 的 基础 。 
从 实际 角度 ，7 的 小 的 选择 也 是 有 意义 的 。 特 别 是 ， 当 了 小 时 ，LMS 算法 对 于 外 部 扰动 是 
BER: 鲁 棱 性 问题 将 在 3. 12 节 讨 论 。 
WI: 维 纳 滤波 器 产生 的 估计 误差 e() 是 白 品 
如 果 期 望 响应 的 产生 是 由 如 下 的 线性 回归 模型 (linear regression model) 所 描述 的 ， 这 个 
假设 就 会 满足 : 
d(n) = wix(n) + e,n) (3. 52) 
RG. 52) 是 式 (3. 44) 的 简单 的 重 写 ， 这 实际 上 说 明了 维 纳 滤波 的 权 值 向 量 和 描述 感 兴趣 随机 环 
境 的 回归 模型 的 权 值 向 量 是 匹配 的 。 
BEI: 输入 向 量 x(2) 和 期 望 响应 d(n) 是 联合 高 斯 分 布 
由 物理 现象 产生 的 随机 过 程 频繁 地 出 现 使 得 高 斯 模型 是 适当 的 一 因此 第 三 个 假设 得 到 了 
验证 。 
不 需要 对 LMS 算法 的 统计 分 析 作 更 多 的 假设 “Haykin，2002，2006)。 下 面 我 们 讲述 这 
一 分 析 的 精简 版 本 。 
LMS 算法 的 固有 模式 
S R- 定 义 输入 向 量 x) 的 总 体 平均 相关 和 矩阵 ，x(m) 由 稳定 过 程 产生 ; Bl 
Ra = E[xCn)x (n) J (3. 53) 
相应 地 ， 可 以 将 式 (3. 51) 的 平均 转移 矩阵 表达 为 修正 马尔 可 夫 模 型 ， 
A= E[I — nxXCn)x Cn)] 
= (I— 7R. J (3. 54) 
然后 将 式 (3. 50) 展 开 为 下 面 的 形式 : 
eo (n t 1) = i 7 Reo Cn) + fy Cn) (3.55) 
EP Ew 是 附加 噪声 。 今 后 ， 式 (3. 55) 将 作为 LMS 算法 统计 分 析 的 基础 公式 。 
LMS 算法 的 固有 模式 
应 用 矩阵 理论 ′ 中 对 相关 和 矩阵 Re ELEK, RTA 
QTR-Q 一 人 (3. 56) 
其 中 Q 是 正 交 和 矩阵 ， 其 列 是 Ra 的 特征 向 量 ， 且 A 是 对 角 抢 阵 且 其 对 角 元 素 是 相应 的 特征 值 
(eigenvalue) 。 将 这 一 变换 引申 到 式 (3. 55) 的 差分 方程 产生 相应 的 解 烛 一 阶 方程 系统 〈systern 
of decoupled first-order equations) (Haykin, 2002, 2006): 


ulna t+) = (O gà Dwm 十 办 (CD 天 一 1 2 M (3. 57) 
其 中 M 是 权 值 向 量 W(n) 的 维 数 。 此 外 ，wvi (mn) 是 变换 后 权 值 误差 向 量 的 第 个 元 素 : 
vin) = Qes ln) (3. 58) 


而 且 ， 相应 地 ， 办 (0) 是 变换 后 噪声 向 量 的 第 k 个 元 素 : 
dn) = QTE Cn) (3. 59) 
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更 具体 来 说 ， 央 (2) 是 均值 为 0 TPE pT inde 的 白 噪 过程 的 样本 函数 ， 其 中 Ji 为 由 维 纳 滤波 
器 产生 的 最 小 均 方 误差 。 实 际 上 ， 式 (3. 57) 的 第 个 差分 方程 的 0 -均值 驱动 力 的 方差 和 相关 
和 矩阵 Rs 的 第 k 个 特征 值 4 成 正比 。 


定义 差分 : 
Av, ln) = vn 1) — v Cn) k=1,2,",M (3. 60) 
可 以 将 式 (3. 57) 写 为 如 下 形式 ， 
Av, (n) =— AV Cn) + bln) k=1l1,2,.…,M (3. 61) 


随机 方程 〈3. 61) 可 以 认为 是 式 (3. 47) 的 朗 之 万 方程 的 离散 时 间 版 本 。 特 别 地 ， 我 们 一 项 项 比 
较 这 两 个 公式 ， 可 以 给 出 如 表 3. 2 所 列 出 的 类 比 关系 。 受 这 个 表 的 启发 ， 我 们 可 以 给 出 如 下 重 
要 陈述 : 

差分 方程 (3. 55) 的 正 交 变换 的 应 用 结果 所 得 到 的 LMS 滤波 器 的 收效 行为 ， 可 以 通过 具 
有 AM 个 解 耦 朗 之 万 方程 的 系统 来 描述 。 其 第 & 个 分 量 的 特点 如 下 所 示 : 

。 阻尼 力 由 AMEL; 

。 ALBA b(n) 由 均值 为 0 方差 为 及 Jmiohs OO RL ABI 

更 重要 的 是 ， 朗 之 万 力 加 (Cn) 对 于 LMS R32 MAHE (连续 时 间 ) 和 变换 后 的 
算法 的 非 平衡 行为 负责 ， 它 证 明了 自身 在 大 量 LMS 演化 【离散 时 间 】 之 间 的 比较 
的 足够 多 的 迭代 次 数 的 时 候 ， 算 法 在 最 优 维 FEA AR OA IMSE iD 
纳 解 的 周围 进行 布朗 运动 (Brownian mo- WO ne 
tion) 。 然 而 ， 需 要 强调 的 是 ， 在 表 3.2 中 所 
总 结 的 发 现 以 及 前 述 的 陈述 是 基于 学 习 率 参数 
7 为 小 的 前 提 之 下 。 


LMS 算法 的 学 习 曲 线 
通过 解 式 (3. 57) 的 变换 差分 方程 ， 我 们 得 到 由 Haykin(2002，2006) 所 描述 的 LMS 学 习 
曲线 ， 
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M M 
Jon) = Jan + J nn git allao? goa) Ja)” — (3.62) 
其 中 
Jw = EL etn) |?) 
为 均 方 误差 ， 内 (0) 是 变换 向 量 vn) 的 第 个 元 素 。 在 学 习 率 参数 7 小 的 假设 下 ， 式 (3. 62) 简 
化 为 , a 
JD a Jan HE Yas + Da ( [ve C0) |? = 4) A= gao” (3. 63) 


本 节 中 小 学 习 率 参数 理论 的 实际 评估 在 下 面 的 计算 机 实验 部 分 讲述 。 
3.10 计算 机 实验 工 : 线性 预测 


本 实验 的 目的 是 证 明 3. 9 节 中 所 讲 的 LMS 算法 的 统计 学 习 理 论 ， 假 定 一 个 小 的 学 习 率 参 


数 7。 
对 这 一 实验 ， 我 们 考虑 一 个 一 般 模型 ， 由 下 式 定义 

a(n) = ax(n—1) +e(n) (3. 64) 
这 表示 了 一 阶 自 回 归 CAR) 过 程 。 这 个 模型 是 一 阶 的 ，e 是 模型 中 唯一 的 参数 。 解 释 误差 eln) 
由 均值 为 0 方差 为 的 白 噪 过 程 产生 。 模型 的 参数 如 下 所 示 : 
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a= 0. 99 
æ= 0.02 
a= 0. 995 
为 了 估计 模型 参数 =， 我 们 利用 学 习 率 参数 为 /一 0. 001 的 LMS 算法 。 开 始 的 初始 条 件 为 
Ww(0) = 二 0， 我 们 应 用 式 (3. 35) 的 标量 版 本 ， 其 中 估计 误差 为 ， 
eln) = x(n) — a(n) x(n—1) 
这 里 4(n) 是 由 LMS BREE n AA PE AT. Ra, $100 次 统计 独立 的 LMS 算 
法 的 应 用 ， 画 出 算法 的 总 体 平 均 学 习 曲 线 。 图 3.5 中 5 000 次 迭代 所 画 的 实心 〈 随 机 变化 ) 曲 
线 是 总 体 平均 操作 的 结果 。 





学 习 率 参数 ?一 0.001 
10! — 一 人 


10 k 
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图 3.5 LMS 算 法 应 用 于 一 阶 自 回归 过 程 的 小 学 习 率 参数 理论 的 实验 验证 


在 图 3. 5 中 已 经 包含 了 计算 总 体 平均 学 习 曲 线 的 结果 ， 这 是 通过 利用 式 (3. 63) 的 理论 推导 
公式 来 实现 的 ， 在 假设 小 的 了 的 前 担 下 。 值 得 注意 的 是 图 3. 5 证 明了 理论 和 实际 之 间 完 美的 一 
致 性 。 更 加 地 ， 这 一 值得 注意 的 一 致 性 可 以 看 成 是 两 个 重要 的 理论 原则 的 确认 

1. 在 小 学 习 率 参数 假设 下 ，Kushner 方法 可 以 用 于 处 理 LMS 学 习 行 为 的 理论 分 析 。 

2. LMS 算法 的 学 习 行为 可 以 解释 为 朗 之 万 方程 的 一 个 例子 。 


3. 11 计算 机 实验 研 : 模式 分 类 


对 于 LMS 算法 的 第 二 个 实验 ， 我 们 研究 将 这 一 算法 应 用 于 如 图 1. 8 所 示 的 双 月 结 构 。 更 
具体 来 说 ， 通 过 对 双 月 结构 的 两 个 设置 来 评估 算法 的 性 能 : 

d) 4 二 1， 相 应 于 线形 可 分 

(2) 4d 二 一 4， 相 应 于 线性 不 可 分 

实际 上 ， 我 们 重复 了 第 2. 5 节 的 实验 ， 那 时 候 采 用 的 是 最 小 二 乘 ， 这 一 次 采用 LMS 算法 。 

对 于 两 个 4 值 ， 实 验 结果 分 别 在 图 3. 6 和 图 3. 7 中 给 出 。 将 这 两 个 图 和 图 2. 2 以 及 图 2. 3 
相 比 较 ， 有 以 下 结果 : 

(a) 对 所 有 实际 目的 来 说 ， 在 所 考虑 的 识别 性 能 范围 内 ， 最 小 二 乘 和 LMS 算法 产生 的 结 
果 是 等 同 的。 

Cb) 从 收 伍 性 的 角度 来 说 ，LMS 算法 比 最 小 二 乘法 慢 很 多 。 这 个 差别 是 因为 LMS 算法 事 
实 上 是 递归 的 ， 而 最 小 二 乘法 是 按 批量 模式 运行 ， 包 括 在 一 个 时 间 步 内 进行 抢 阵 求 逆 。 


x 7 
10 0 1000 
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作为 一 个 有 趣 的 问题 ， 第 5 章 中 将 给 出 最 小 二 乘法 的 递归 执行 方法 。 由 于 采用 二 阶 信息 ， 
最 小 二 乘法 的 递归 执行 仍然 比 LMS 算法 的 收敛 行为 来 得 快 。 
距离 =1， 半 径 =10， 宽 =6 时 利用 LMS 进 行 分 类 
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-10 上 
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图 3.6 在 距离 为 1 时 的 LMS 分类， 基于 图 1.8 所 示 的 双 月 结构 


距离 =-4， 半 径 =10， 宽 =6 时 利用 LMS 进 行 分 类 

















x, 


图 3.7 在 距离 为 一 4 时 的 LMS 分类， 基于 图 1.8 所 示 的 双 月 结构 
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3.12 LMS 算法 的 优点 和 局 限 


计算 简单 且 有 效 
LMS 算 法 的 两 个 优点 是 计算 的 简单 性 和 有 效 性 ， 这 两 点 都 可 以 通过 表 3. 1 中 对 算法 的 总 
结 来 得 到 验证 : 
。 对 于 算法 的 编程 仅 由 2 一 3 行 组 成 ， 这 已 经 是 简单 得 不 能 再 简单 了 。 
。 算法 的 计算 复杂 度 对 于 可 调整 参数 个 数 来 说 是 线性 的 。 
从 实际 角度 来 看 ， 这 些 都 是 非常 重要 的 优点 。 
HHE 
LMS 算法 的 另 一 个 重要 的 优点 是 它 是 模型 独立 的 ， 因 而 对 于 扰动 来 说 是 鲁 棒 的 。 为 了 解 
释 这 里 鲁 棒 性 的 意义 ， 考 虑 图 3. 8 的 情形 ， 那 里 一 个 转移 算 子 了 将 一 些 扰动 从 输入 端 映 射 到 输 
出 端的 “一 般 的 ”估计 误差 。 具 体 来 说 ， 在 输入 端 ， 我 们 有 如 下 项 : 
。 由 下 式 定 义 的 初始 权 值 误差 向 量 
dw(0) = w— WO) (3. 65) 
其 中 w 是 未 知 的 参数 向 量 且 W(0) 是 在 时 间 步 n= 二 0 时 的 “建议 ”初始 估计 。 在 LMS 算 
法 中 ， 一般， 我 们 设 w(0) 一 0， 这 在 某 种 程度 上 是 对 这 个 算法 的 最 坏 的 可 能 初始 化 
条 件 。 
© MAR 3) 回 归 模 型 中 的 解释 误差 se， 这 里 重 写 这 一 误差 是 为 了 讲述 的 方便 ，d 是 响 
应 于 回归 z 的 模型 输出 : 
d=wxte (3. 66) 
自然 地 ， 算 子 了 是 用 于 构造 估计 Wn) 的 方案 (例如 ，LIMS 算法 ) 的 函数 。 现 在 可 以 引 人 如 下 定义 : 
估计 器 的 能 量 增益 可 以 定义 为 算 子 了 的 输出 的 误差 能 量 和 输入 的 总 扰动 能 量 之 间 的 比 。 
为 了 消除 这 样 的 依赖 性 从 而 使 得 估计 器 是 “模型 独立 ”的 ， 我 们 考虑 具有 作用 于 估计 器 
输入 的 “所 有 可 能 扰动 序列 之 上 的 最 大 能 量 增益 ” Clargest possible energy gain over all con- 
ceivable disturbance sequences) 的 情景 。 这 样 做 的 时 候 ， 我 们 定义 了 转移 算 子 7 的 H” WR. 
有 了 这 样 简要 的 背景 ， 现 在 可 以 给 出 转移 算 子 7 的 HR: 


寻找 一 个 使 得 7 的 HO 范 数 最 小 的 因果 估计 器 ， 其 中 7 是 将 扰动 映射 到 估计 误差 的 转移 
算 子 。 


和 H” 准则 相应 的 最 优 估计 器 是 属于 极 大 极 小 minimax) 种 类 的 。 更 具体 来 说 ， 我 们 可 以 
将 本 ”最 优 估 计 问 题 看 成 是 如 下 意义 下 的 “对 策 论 问题 ”(game- theoretic problem) : 自然 ， 作 
为 “敌对 者 ”， 因 具有 来 知 扰动 ， 因 而 能 最 大 化 能 量 增益 。 另 一 方面 ， 估 计策 略 的 “设计 者 ” 
具有 寻找 因果 算法 的 任务 以 使 得 误差 能 量 最 小 化 。 注 意 ， 在 图 3. 8 中 我 们 介绍 五 ”准则 思想 的 
时 候 对 于 输入 的 扰动 没有 做 任何 假设 。 因 此 我 们 可 以 说 按照 日 ”准则 设计 的 估计 器 是 最 坏 情况 


估计 器 (worst-case estimator), 


(初始 权 值 误差 向 量 〉5w (0) mse 


(扰动 ) eCa) 


转移 算 子 (一 般 估计 误差 ) 
T 


图 3.8 最 优 He 估计 问题 的 构成 。 转 移 算 子 输出 端的 一 般 估 计 误 差 可 以 是 权 值 误差 向 量 、 解 释 误差 等 
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以 精确 的 数学 术语 来 说 ，LMS 算法 按照 H* 准 则 或 极 大 极 小 准则 ) 是 最 优 的 ;。 在 HOR 
义 下 最 优 性 的 基本 原理 要 处 理 最 坏 情况 : 


如 果 你 不 知道 你 面 对 的 是 什么 ， 计 划 最 坏 的 情况 并 优化 它 。 


长 期 以 来 LMS 算法 被 当 作 梯 度 下 降 法 的 瞬时 逼近 。 但 是 ，LMS 算法 的 五 "最 优 人 性 为 这 个 
广泛 应 用 的 算法 提供 了 严格 的 基础 。 而 且 ，LMS 算法 的 HH” 理论 说 明 当 学 习 率 参数 7 被 赋予 一 
个 小 的 值 时 算法 获得 最 大 的 鲁 棒 特 性 。 

LMS 算法 的 模型 独立 行为 也 解释 了 算法 在 稳定 和 不 稳定 环境 下 令 人 满意 的 工作 能 力 。 这 
里 “不 稳定 ”环境 是 指 统计 特性 随时 间 变 化 的 环境 。 在 这 样 一 个 环境 下 ， 最 优 的 维 纳 解 随时 间 
变化 ，LMS 算法 有 了 一 个 附加 任务 跟踪 维 纳 滤波 器 最 小 均 方 误差 的 变化 。 
限制 LMS 性 能 的 因素 

LMS 算法 的 主要 局 限 性 是 收敛 速度 较 慢 ， 并 且 对 输入 特征 结构 的 变化 是 敏感 的 (Haykin， 
1996) 。LMS 算法 一 般 需 要 输入 空间 维 数 10 们 的 迭代 次 数 才能 达到 稳定 状态 。 当 输入 空间 维 
数 较 高 时 缓慢 的 收敛 速度 会 变 得 特别 严重 。 

至 于 对 环境 条 件 变化 的 敏感 性 ，LMS 算法 的 收敛 行为 对 输入 向 量 z 的 相关 矩阵 Ro 的 条 件 
数 (condition number) 或 特征 值 散 布 Ceigenvalue spread) 的 变化 特别 敏感 。R,, 的 条 件数 记 为 
XCR) ,定义 如 下 : 





xR) = 42 (3. 67) 


这 里 Ms 和 ua 分别 是 相关 和 矩阵 RL 的 最 大 和 最 小 特征 值 。 当 输入 向 量 xCz) 所 属 的 训练 样本 是 
坏 条 件 (ill conditioned) 时 ， 也 就 是 当 LMS 算法 的 条 件数 很 大 时 ，LMS 算法 对 条 件数 X(R) 变 
化 的 敏感 性 变 得 特别 严重 。 
3. 13 学习 率 退 火 方案 
LMS 算法 遇 到 的 慢 速率 收敛 可 归 因 于 学 习 率 参数 在 计算 过 程 中 保持 在 某 个 值 p 不 变 的 事 
X, RRA 
y(n) = po x An (3. 68) 
这 只 是 学 习 率 参数 能 够 假设 的 最 简单 的 可 能 形式 。 相 反 ， 在 Robbins 和 Monro 有 关 随 机 
逼近 的 经 典 论文 中 〈1951) ， 学 习 率 参数 是 随时 间 而 改变 的 。 在 随机 和 逼 近 文 献 中 最 常用 到 的 学 
习 率 参 数 随时 间 变 化 的 形式 是 
nm = = (3. 69) 


这 里 < 是 常数 。 这 样 一 个 选择 确实 足够 保证 随机 和 逼近 算法 的 收 敏 性 〈Kushner and Clark, 
1978) 。 但 是 ， 当 常数 c 较 大 时 ， 对 于 较 小 的 nn 有 可 能 出 现 参数 放大 的 危险 。 

作为 式 (3. 68) 和 式 (3. 69) 式 的 替代 ， 可 以 使 用 Darken and Moody(1992) 定 义 的 搜索 然后 
MK 4k FH (search-then-converge schedule) 


=» . 
1”) = TF (3. 70) 


这 里 加 和 + 是 由 用 户 选择 的 常数 。 在 自 适应 的 早期 阶段 ， 即 迭代 次 数 n 相对 搜索 时 间 常 数 + BE 
小 时 ， 学 习 率 参数 p(n) 近似 等 于 办 ， 算 法 运行 实际 上 也 是 与 “标准 ”LMS 算法 一 样 的 ， 如 图 
3. 9 所 示 。 因 此 ， 通 过 在 允许 范围 内 选择 一 个 较 大 的 加 ， 我 们 希望 对 滤波 器 的 可 调 权 值 能 找到 
一 组 较 好 的 值 并 在 其 中 上 下 浮动 。 然 后 ， 当 和 迭代 次 数 n 比 搜索 时 间 常 数 r 大 时 ， 学 习 率 参数 
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1(z 近 似 为 c/n， 这 里 c 一 rp， 如 图 3. 9 所 示 。 算 法 现在 以 一 个 传统 的 随机 逼近 算法 运行 ， 且 
权 值 收敛 到 它们 的 最 优 值 。 因 此 ， 搜 索然 后 收敛 方案 具有 把 标准 LMS 算法 的 期 望 特征 和 传统 
随机 逼近 理论 结合 起 来 的 潜力 。 


n(n) 







n 


V ao ane OED 


0. Lay 


(搜索 然后 收 
RHR) 





0.014, 
图 3.9 学 习 率 退火 方案 : 横 轴 表示 标准 LMS 算法 
3.14 ”小结 和 讨论 


本 章 中 ， 我们 讨论 了 著名 的 最 小 均 方 (LMS) 算法 ， 它 是 由 Widrow 和 Hoff 在 1960 年 提 
出 的 。 从 这 个 方法 的 提出 开始 ， 由 于 以 下 多 个 实际 原因 这 一 算法 经 受 住 了 时 间 的 考验 : 

1. 算法 的 公式 简单 而 且 执 行 简单 ， 无 论 是 以 硬件 或 者 软件 形式 。 

2. 尽管 这 一 算法 是 简单 的 ， 但 其 性 能 很 高 。 

3. 从 计算 的 角度 来 说 ， 算 法 是 非常 高 效 的 ， 其 复杂 度 对 于 可 调整 参数 的 个 数 而 言 是 线 
性 的 。 

4. 最 后 也 是 很 重要 的 一 点 ， 算 法 是 模型 独立 的 因而 对 扰动 而 言 是 鲁 棒 的 。 

在 学 习 率 参数 7 是 小 的 正 数 的 假设 下 ， 有 了 Kushner 直接 平均 法 ，LMS 算法 的 收敛 行为 
(通常 难以 分 析 ) 变 得 数学 易 处 理 的 。 这 一 方法 的 理论 优点 在 于 当 7 小 的 时 候 ， 措 述 LMS 算法 
收 敏 行为 的 非 线性 “随机 ” 差分 方程 被 原始 方程 的 非 线 性 “确定 性 ”版 本 所 代替 。 而 且 ， 通 过 
灵活 运用 特征 分 解 ， 所 得 到 的 非 线性 确定 性 方程 的 解 被 一 个 解 耦 一 阶 差分 方程 系统 所 代替 。 这 
里 要 注意 的 要 点 是 这 样 推导 而 来 的 一 阶 差分 方程 从 数学 上 等 价 于 非 平衡 热力 学 的 朗 之 万 方程 的 
离散 时 间 版 本 。 这 一 等 价 性 解释 了 LMS 算法 在 大 量 迭 代 之 后 围绕 着 维 纳 解 进行 的 布朗 运动 。 
在 3. 10 节 中 的 计算 机 实验 以 及 在 Haykin(2006) 中 的 其 他 计算 机 实验 证 实 了 式 (3. 63) 的 有 效 
性 ， 这 一 公式 描述 了 LMS 算法 的 总 体 平均 学 习 曲 线 。 
| 值得 注意 的 是 当 学 习 率 参数 7 小 的 时 候 LMS 算法 表现 了 最 佳 鲁 棒 性 能 。 然 而 ， 为 了 这 
一 实际 中 的 重要 性 能 而 付出 的 代价 是 相应 的 慢 速 收敛 。 在 某 种 程度 上 ，LMS 算法 的 这 一 局 限 
可 以 通过 利用 学 习 率 退火 来 缓和 ， 如 3. 13 节 所 讲 的 那样 。 

作为 最 后 的 评论 ， 本 章 我 们 集中 讨论 了 普通 的 LMS 算法 。 无 需 缆 言 ， 这 一 算法 具有 多 个 
变形 ， 每 个 变形 都 提供 了 各 自 的 实际 优点 ; 对 于 这 些 变形 的 细节 ， 有 兴趣 的 读者 可 以 参考 
(Haykin, 2002), 
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注释 和 参考 文献 


1. 


对 一 个 向 量 的 微分 
设 f(w) 表 示 参 数 向 量 w 的 一 个 实 值 函数 。f/(w) 对 w 的 导数 定义 为 如 下 向 量 : 
of _ | of of .., 2f | 


aw dw dw: dwn 
这 里 mEnE w 的 维 数 。 我 们 对 下 面 的 两 种 情形 很 感 兴趣 ， 
情形 1 函数 F(w)? 定 义 为 内 积 : 


因此 ， 
of _ _ 
aw = 451 = 1,2 ,Mm 
或 等 价 地 ， 以 矩阵 形式 表示 : 
Of _ 
Sw = (3. 71) 


情形 2 函数 fw) 定义 为 一 次 型 ， 
fw) = w' Rw 一 S Surs; 
SH ry JE m Xm MRE RRIS i TIGR. 因此 ， 
2f = 2D rie, i= 1,2, 
或 等 价 地 ， 以 矩阵 形式 表示 


of — 2 Rw (3. 72) 
wW 


式 (3.71) 和 式 (3.72) 为 向 量 的 实 值 函数 的 微分 握 供 了 两 个 有 用 的 规则 。 


. 矩形 矩阵 的 伪 逆 在 Golub and Van Loan(1996) 中 进行 了 讨论 ; 也 可 参照 Haykin(2002) 的 第 8 章 。 
、 朗 之 万 方程 在 Reif(1965) 中 进行 了 讨论 。 关 于 朗 之 万 方程 迷人 的 历史 报告 ,参照 Cohen(2005) 关 于 噪声 的 


辅导 论文 。 


. 式 (3.56) 的 正 交 变换 由 方 阵 的 特征 分 解 而 来 。 这 一 主题 将 在 第 8 章 中 详细 讲解 。 


5. 对 于 早期 的 (可 能 是 第 一 个 ) 关 于 H 控制 的 诱发 性 讨论 ， 可 以 参考 Zames(1981) 。 


an 


在 H 意义 下 关于 LMS 算法 最 优 人 性 的 第 一 个 探索 是 Hassibi (1993), Hassibi 等 〈1999) 从 估计 或 者 自 适 
应 滤波 的 角度 论述 五 ” 理论 。Hassibi 也 在 H~ 意 义 下 给 出 了 关于 LMS 算法 的 鲁 棒 性 的 精简 讨论 ， 参 考 
Haykin and Widrow(2005) 的 第 8 章 。 

从 控制 的 角度 来 看 H Mie. WUBI Zhou and Doyle(1998) 以 及 Green and Limebeer(1995) 。 


. LMS 算法 的 收 全 行为 关于 记 为 X(R) 的 相关 矩阵 Re 的 条 件数 变化 的 敏感 性 ， 在 Haykin(2002) 的 5.7 节 通 


过 实验 作 了 描述 。 在 Haykin(2002) 的 第 9 章 中 ， 处 理 最 小 二 乘法 的 递归 执行 ， 也 证 明了 算法 的 收敛 行为 本 
质 上 独立 于 条 件数 xR). 


习题 
3.1 (a) 令 mln) 表 示 LMS 算法 在 第 次 迭代 的 平均 权 值 向 量 ， 即 


m(n) = ELW(n) ] 
利用 3.9 节 的 小 学 习 率 参数 理论 ， 证明 
m(n) = (I— Ra )"[m(0) 一 m(ce)] 十 mm(co) 
其 中 7 是 学 习 率 参数 ，R- 是 输入 向 量 x(n) 的 相关 和 矩阵 ，m(0) 和 m(co) 为 m(n) 相 应 的 初始 和 最 
终 值 。 
b) 证 明 对 于 LMS 算法 在 平均 意义 下 收敛 ， 学 习 率 参数 了 必须 满足 条 件 ， 


3.2 
3.3 
3.4 


3.5 


3.6 


3.8 


3.9 
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O < 了 7 了 < = 

这 里 Ama ERRE Ro H eK AEE 
继续 习题 3. 1， 讨论 为 什么 LMS 算法 在 平均 意义 下 收敛 不 是 实际 中 收敛 的 充分 准则 。 
考虑 将 均值 为 0 方差 为 2? 的 高 斯 白 噪 序列 作为 LMS 算法 的 输入 。 给 出 均 方 意义 下 算法 的 收敛 条 件 。 
在 LMS 算法 的 一 个 称 为 漏 LMS 算法 (leaky LMS algorithm) 的 变形 中 ， 用 于 极 小 化 的 代价 函数 定义 为 

En) 一 + |en) |? + tA ll wo |? 

其 中 w(n) 是 参数 向 量 ，e(n) 是 估计 误差 ,4 是 常数 。 如 普通 LMS 算法 ， 我 们 有 

了 eln) = d(n) — w" (mxn) 
Fl dC) dé AB We Ff A Ta x) FO 。 
(a) 证 明 每 个 时 间 步 对 漏 LMS 算法 的 参数 向 量 的 更 新 由 下 式 定义 ， 

Win + 1) = C1 — aA) WO) + xn) el(n) 

普通 LMS 算法 是 一 个 特例 。 

(b) 利用 3.9 节 的 小 学 习 率 参数 理论 ， 证 明 
lim ELC] = (Rs HAD ra 

其 中 Re 是 x(Co) 的 相关 矩阵，L 是 单位 矩阵 ，r 是 x(n) 和 d(xn) 的 互相 关 向 量 。 
继续 习题 3. 4， 证 明 漏 LMS 算法 可 以 通过 在 输入 向 量 x(n) 中 加 入 白 噪 来 “模拟 ”。 
Ca) 噪声 的 方差 是 多 少 才能 使 得 习题 3. 4 中 的 〈b) 条 件 得 到 保持 ? 
(b) 什么 时 候 模 拟 算 法 实际 上 具有 和 漏 LMS 算法 相同 的 形式 ? 证 明 你 的 答案 。 
我 们 有 时 在 文献 中 发 现 学 习 曲 线 的 均 方 误差 (MSE) 公式 被 替代 为 均 方 偏差 (mean-square deviation, 
MSD) 学 习 曲 线 。 定 义 权 值 误 差 向 量 


eln) = w— Wn) 
这 里 w EERROR SAE, OP RE RRR n 计算 一 块 MSD 
而 获得 的 ; 
D@) = EL Il eCn) || 7] 
利用 3.9 节 的 小 学 习 率 参数 理论 ， 证 明 
Deo) = limD(n) = 部 9MJ mn 


其 中 7 是 学 习 率 参数 ，M 是 参数 向 量 W 的 大 小 ，J wn 是 LMS 算法 的 最 小 均 方 误差 。 
在 本 习题 中 我 们 考虑 证 明 直 接 平均 法 ,假设 遍历 性 。 
从 式 (3.41) 开 始 ， 它 通过 转移 矩阵 A(n) 和 驱动 力 f(n) 定 义 权 值 误差 向 量 ea). M A(n) 和 f(x) 分 别 通过 
输入 向 量 MERG. 42) 和 式 (3.43) 中 定义 ; 然后 做 如 下 过 程 : 
。 令 n= 一 0, He). 
。 Sn=1, 评估 e(2)。 
。 对 于 少量 的 更 多 次 迭代 继续 这 一 方式 。 
有 了 这 些 关 于 NBR, ESRB A(n) 的 公式 。 
下 面 假设 学 习 率 参数 7 足够 小 以 验证 仅 保 持 对 于 7 是 线性 的 项 。 因 此 ， 假 设 遍 历 性 ， 证 明 

Am) = I= q>)xG)x"G) 
具有 下 面 的 形式 : 

ACn) 一 工 一 上 AR- 

当 学 习 率 参数 了 小 的 时 候 ，LMS 算法 像 “ 小 截至 频率 低 通 滤波 器 ”(low-pass filter with a small cutoff 
frequency) 一 样 工作 。 这 样 的 滤波 器 产生 的 输出 和 输入 信和 号 的 平均 成 正比 。 


利用 式 (3. 41) ， 通 过 考虑 利用 单一 参数 算法 的 简单 例子 讲述 LMS 算法 的 性 质 。 
对 于 小 学 习 率 参数 从 式 (3. 55) 开 始 ， 证 明 在 稳定 状态 条 件 下 ， 保 持 Lyapunov 方程 
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RP, (n) + Po (WR = q > JERO 
i=0 


其 中 我 们 有 


Jun = Ele, (nde, (n— i) ] 


且 


R? = Elx(n)x"™(n— i) ] 


对 于 ;一 0,1,2,… 和 矩阵 Po。 通过 E[e. (del MJE, e, (mw) 是 由 维 纳 滤波 器 产生 的 不 可 削减 的 估计 误差 。 


计算 机 实验 


3.10 


对 于 下 面 的 学 习 率 参数 值 重复 3.10 节 关 于 线性 预测 的 计算 机 实验 ， 

(1) 7 一 0. 002; 

(2) ?7 一 0.01; 

(3) 7 一 0. 02, 

对 于 每 个 7 值 ， 根 据 LMS 算法 的 小 学 习 率 参数 理论 的 适用 性 对 你 的 发 现 做 出 评论 。 
将 图 1.8 中 的 双 月 间 的 分 隔 距 离 设 为 a 一 0， 重复 3. 11 节 中 模式 分 类 的 计算 机 实验 。 

和 习题 1. 6 关于 感知 器 的 实验 以 及 习题 2.7 关于 最 小 二 乘法 的 试验 比较 你 的 实验 结果 。 
利用 下 面 的 分 隔 距 离 ， 画 出 将 LMS 算法 应 用 于 图 1. 8 的 双 月 结构 的 模式 分 类 学 习 曲 线 ， 
d=1 

d=0 

d=—4 

将 这 一 实验 结果 与 第 1 章 利用 Rosenblatt 感知 器 的 实验 结果 进行 比较 。 
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本 章 组 织 

在 本 章 中 ， 我 们 将 从 多 个 方面 来 学 习 多 层 感知 占 ， 多 层 感 知 闫 代表 一 类 具有 一 层 或 多 层 隐 
藏 层 的 神经 网 络 。 在 4.1 节 介 绍 了 引言 素材 之 后 ， 我 们 按 如 下 步骤 学 习 : l 

4. 2 一 4.7 节 讨 论 关 于 反 向 传播 的 知识 。4.2 节 中 介绍 一 些 预 备 知识 来 为 反 向 传播 算法 的 推导 
做 准备 。 这 一 节 也 包含 了 关于 信用 分 配 问 题 的 讨论 。4. 3 节 介绍 两 种 学 习 方法 : 批量 和 在 线 学 习 。 
4.4 节 介绍 反 向 传播 算法 的 推导 细节 ， 利 用 了 微 积分 学 的 链 式 规则 。 推 导 过 程 中 采用 了 传统 方法 。 
4.5 节 通 过 解 XOR 问题 来 说 明 反 向 传播 算法 的 应 用 。XOR 是 一 个 无 法 用 Rosenblatt 感知 器 来 解 
决 的 有 趣 的 问题 。4.6 节 给 出 了 一 些 使 得 反 向 传播 算法 更 好 实现 的 启发 式 方法 和 实际 的 指导 方针 。 
4.7 节 给 出 了 一 个 关于 多 层 感知 器 的 模式 分 类 实验 ， 这 一 感知 器 通过 反 向 传播 算法 来 训练。 

4.8 节 和 4.9 节 处 理 误差 曲面 。4. 8 节 讨 论 反 向 传播 学 习 在 计算 网 络 逼近 函数 的 篇 导数 中 
的 基础 规则 。4. 9 节 讨 论 关于 误差 曲面 的 Hessian 怎 阵 的 计算 问题 。4. 10 节 讨 论 两 个 问题 : 如 
何 实现 最 优 退 火 以 及 如 何 使 得 学 习 率 参数 自 适应 。 

4.11~4.14 节 集 中 讨论 用 反 向 传播 算法 训练 的 多 层 感 知 器 性 能 方面 的 多 个 问题 。4. 11 节 
讨论 泛 化 问题 一 一 这 是 关于 学 习 的 一 个 非常 本 质 的 问题 。4. 12 节 中 讨论 通过 多 层 感知 矣 来 实 
现 连续 函数 的 逼近 问题。 在 4.13 节 中 将 交叉 验证 作为 统计 设计 工具 来 讨论 。4. 14 节 讨 论 复杂 
度 正则 化 问题 以 及 网 络 修剪 技术 。 

4. 15 节 总 结 了 反 向 传播 学 习 的 优点 和 局 限 性 。 

学 习 完 反 向 传播 学 习 之 后 ，4. 16 节 从 不 同 角度 来 将 监督 学 习 看 作为 最 优化 问题 进行 讨论 。 

在 4.17 节 讲述 一 类 重要 的 神经 网 络 : AT S ER ma Cconvolutional multilayer percep- 
tron)。 这 一 网 络 已 经 在 解困 难 模式 识别 问题 时 得 到 了 成 功 的 应 用 。 

4. 18 节 处 理 非 线性 滤波 ， 这 里 时 间 扮 演 着 关键 角色 。 这 一 讨论 从 短 时 记忆 结构 开始 ， 为 
通用 短视 映射 定理 (universal myopic mapping theorem) 建立 了 基础 。 

4.19 节 讨论 小 规模 和 大 规模 学 习 问 题 。 

最 后 是 4. 20 节 的 小 结 和 讨论 。 


4.1 引言 


在 第 1 章 中 ， 我 们 学 习 了 Rosenblatt 感知 器 ， 它 本 质 上 是 一 个 单 层 神经 网 络 。 该 章 证 明了 
这 一 网 络 局 限于 线性 可 分 模式 的 分 类 问题 。 然 后 ， 在 第 3 章 中 ， 我 们 学 习 了 自 适 应 滤波 ， 采 用 
了 Widrow 和 Hoff 的 LMS 算法 。 这 一 算法 也 是 基于 权 值 可 调 的 单个 线性 神经 元 ， 这 也 限制 了 
这 一 算法 的 计算 能 力 。 为 了 克服 感知 器 和 LMS 算法 的 实际 局 限 ， 我 们 考虑 所 熟知 的 多 层 感 知 
器 这 一 神经 网 络 结构 。 

下 面 的 三 点 揭示 了 多 层 感知 器 的 基本 特征 ， 

。 网 络 中 每 个 神经 元 模型 包含 一 个 可 微 的 非 线 性 激活 消 数 。 

。 网 络 中 包括 一 个 或 多 个 隐藏 在 输入 和 输出 神经 节点 之 间 的 层 。 

。 网 络 展示 出 高 度 的 连接 性 ， 其 强度 是 由 网 络 的 突 触 权 值 决定 的 。 

然而 ， 同 样 这些 特 性 也 导致 了 现 阶段 关于 网 络 行为 知识 的 缺乏 。 首 先 ， 由 于 非 线性 分 布 式 
的 存在 和 网 络 的 高 度 连接 性 使 得 多 层 感知 器 的 理论 分 析 难 于 进行 。 第 二 ， 隐 藏 层 的 使 用 使 得 学 


78 .第 4 章 多 层 感 知 器 


习 过 程 变 得 更 难 。 这 暗示 着 学 习 过 程 必须 决定 输入 模式 的 哪些 特征 应 该 由 隐藏 层 神经 元 表示 出 
来 。 学 习 过 程 因 此 变 得 更 困难 了 ， 因 为 不 得 不 在 大 得 多 的 可 能 函数 空间 中 搜索 ， 同 时 必须 在 输 
人 模式 的 不 同 表 示 中 进行 选择 。 

训练 多 层 感知 器 的 一 个 流行 方法 是 反 向 传播 算法 ， 这 包含 LMS 算法 作为 一 个 特例 。 训 练 
分 为 如 下 的 两 个 阶段 : 

1. 前 向 阶段 ， 网 络 的 突 触 权 值 是 固定 的 ， 输 入 信和 号 在 网 络 中 一 层 一 层 传播 ， 直 到 到 达 输 
出 端 。 因 此 ， 在 这 一 阶段 ， 输 入 信号 的 影响 限制 在 网 络 中 激活 隐藏 神经 元 和 输出 神经 元 上 。 

2. 反 向 阶段 ， 通 过 比较 网 络 的 输出 和 期 望 输出 产生 一 个 误差 信号 。 得 到 的 误差 信号 再 次 通 
过 网 络 一 层 一 层 传播 ， 但 是 这 一 次 传播 是 在 反 向 方向 进行 的 。 在 这 第 二 阶段 ， 对 于 网 络 的 突 触 权 
值 进行 不 断 的 修正 。 对 于 输出 层 权 值 的 修正 计算 是 直接 的 ， 但 是 对 于 隐藏 层 来 说 则 更 有 挑战 性 。 

“ 反 向 传播 ”这 个 词 的 使 用 出 现在 1985 年 后 ， 而 它 的 广泛 使 用 是 在 《Parallel Distributed 
Processing) (Rumelhart and McClelland, 1986) 这 本 书 出 版 以 后 。 

20 世纪 80 年 代 中 期 反 向 传播 算法 的 提出 是 神经 网 络 发 展 史 上 的 一 个 里 程 碑 ， 因 为 它 为 训 
练 多 层 感 知 器 提供 了 一 个 高 效 的 计算 方法 ， 它 使 多 层 感知 器 的 学 习 不 再 像 Minsky 和 Papert 在 
其 1969 年 所 著 的 书 中 所 暗示 的 那样 悲观 。 


4.2 一 些 预备 知识 
图 4. 1 表示 一 个 具有 两 个 隐藏 层 和 一 个 输出 层 的 多 层 感 知 器 的 结构 图 。 为 了 构筑 多 层 感 知 
器 一 般 形 式 的 描述 平台 ， 这 里 说 的 网 络 是 全 连接 的 Cfully connected) 。 这 就 是 说 在 任意 层 上 的 
个 神经 元 与 它 之 前 的 层 上 的 所 有 节点 /神经 元 都 连接 起 来 。 信 号 一 层 接 一 层 地 逐步 流 过 , 方 


向 是 向 前 的 ， 从 左 到 右 。 
图 4. 2 描绘 了 多 层 感知 器 的 一 部 分 。 在 这 个 网 络 中 ， 两 种 信号 都 能 被 识别 : 























一 > 函数 信号 


输入 层 。 第 一 隐藏 层 。” 第 二 隐藏 层 ”输出 层 <-- 误差 信号 
图 4.1 具有 两 个 隐藏 层 的 多 层 感知 器 结构 图 图 4.2 多 层 感知 器 中 两 个 基本 信号 流 的 方向 图 示 : 
函数 信号 的 前 向 传播 和 误差 信号 的 反 向 传播 


L 函数 信号 。 函 数 信号 是 从 网 络 输入 端 而 来 的 一 个 输入 信和 号 〈 刺 激 )， 通 过 网 络 一 个 神 

经 元 接 一 个 神经 元 ) 向 前 传播 ， 到 达 网 络 输出 端 即 成 为 一 个 输出 信和 号。 我 们 把 这 样 一 个 信号 称 

为 “函数 信号 ”有 两 个 原因 。 首 先 ， 在 网 络 输出 端 时 假设 它 表 现 为 有 用 的 函数 。 第 二 ， 在 函数 

信号 通过 网 络 上 每 一 个 神经 元 处 ， 该 处 信号 都 被 当成 输入 以 及 与 该 神经 元 有 关 的 权 值 的 一 个 函 
数 来 计算 的 。 函 数 信和 号 也 被 认为 是 输入 信和 号。 

2. 误差 信号 。 一 个 误差 信号 产生 于 网 络 的 一 个 输出 神经 元 ， 并 通过 网 络 ( 一 层 接 一 层 ) 

反 向 传播 。 我 们 称 之 为 “误差 信号 ”是 因为 网 络 的 每 一 个 神经 元 对 它 的 计算 都 以 这 种 或 那 种 形 
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式 涉 及 误差 依赖 也 数 。 

输出 神经 元 构成 网 络 的 输出 层 。 余 下 的 神经 元 构成 网 络 的 隐藏 层 。 因 此 隐藏 层 单元 并 不 是 
网 络 输 出 或 输入 的 一 部 分 一 一 因此 它们 被 称 为 “隐藏 ”的 。 第 一 隐藏 层 的 信号 是 从 由 传 感 单元 
( 源 节点 〉 构成 的 输入 层 馈 给 的 ， 而 第 一 隐藏 层 的 输出 结果 又 应 用 于 下 一 个 隐藏 层 ; 网 络 的 其 
余部 分 依 此 类 推 。 

多 层 感 知 器 每 一 个 隐藏 层 或 输出 层 神经 元 的 作用 是 进行 两 种 计算 : 

1. 计算 一 个 神经 元 的 输出 处 出 现 的 函数 信号 ， 它 表现 为 关于 输入 信号 以 及 与 该 神经 元 相 
关联 的 突 触 权 值 的 一 个 连续 非 线性 函数 。 

2. 计算 梯度 向 量 〈 即 误差 曲面 对 连接 于 一 个 神经 元 输 人 的 权 值 的 梯度 ) 的 一 个 估计 ， 它 
需要 反 向 通过 网 络 。 
隐藏 神经 元 的 功能 

隐藏 神 经 元 扮演 着 特征 检测 算 子 (feature detector) 的 角色 ; 它们 在 多 层 感 知 器 的 运转 中 起 着 决 
定性 作用 。 随 着 学 习 过 程 通过 多 层 感 知 器 不 断 进 行 ， 隐 藏 神经 元 开始 逐步 “发 现 ” 刻 画 训 练 数据 的 
突出 特征 。 它 们 是 通过 将 输入 数据 非 线性 变换 到 新 的 称 为 特征 空间 的 空间 而 实现 的 。 例 如 ， 在 模式 
分 类 问题 中 ， 感 兴趣 的 类 在 这 个 新 的 空间 中 可 能 比 原始 输入 数据 空间 中 更 容易 分 隔 开 。 甚 至 ， 正 是 
通过 监督 学 习 形成 的 这 一 特征 空间 将 多 层 感 知 器 和 Rosenblatt 感知 器 区 别 开 来 。 
信用 分 配 问 题 

当 学 习 如 图 4. 1 所 示 的 分 布 式 系统 的 学 习 算 法 时 ， 注 意 信 用 分 配 (credit assignment) 的 
概念 是 有 益 的 。 基 本 上 上 上， 信用 分 配 间 题 是 分 配 总 体 结 果 的 信用 或 者 责任 《blame) 给 每 一 个 由 
分 布 式 学 习 系 统 的 隐藏 计算 单元 所 产生 的 内 部 决策 (internal decision), 首先 要 注意 的 是 那些 
决策 将 决定 总 体 结 果 。 

在 利用 误差 相关 学 习 Cerror-correlation learning) 的 多 层 感 知 器 中 ， 会 发 生 信用 分 配 问 
题 。 这 是 因为 网 络 中 每 一 个 隐 沽 神经 元 和 每 一 个 输出 神经 元 的 操作 ， 对 于 网 络 感 兴趣 的 学 习 任 
务 的 总 体 正确 行为 而 言 都 是 重要 的 。 也 就 是 说 ， 为 了 解决 给 定 的 任务 ， 网 络 必须 通过 特定 的 误 
差 修正 学 习 算法 给 它 的 所 有 神经 元 分 配 某 种 形式 的 行为 。 在 这 一 背景 下 ， 考 虑 图 4. 1 所 示 的 多 
层 感知 器 。 因 为 每 一 个 输出 神经 元 对 于 外 部 世界 来 说 是 可 见 的 ， 我 们 可 以 提供 一 个 期 望 响应 来 
指导 这 些 神 经 元 的 行为 。 因 此 ， 一 旦 考虑 了 输出 神经 元 ， 就 可 以 直接 通过 误差 修正 算法 来 修正 
每 个 输出 神经 元 的 突 触 权 值 。 但 是 ， 当 误差 修正 学 习 算法 被 用 来 修正 隐藏 神经 元 的 突 触 权 值 
时 ， 如 何 给 隐藏 神经 元 的 行为 分 配 信用 或 者 责任 呢 ? 对 这 一 基本 问题 的 答案 需要 比 输出 神经 元 
的 情形 给 出 更 细节 的 关注 。 

在 本 章 后 续 的 部 分 ， 我 们 给 出 反 向 传播 算法 ， 它 是 多 层 感知 器 训练 的 基础 算法 。 反 向 传播 
算法 以 一 种 精致 的 方式 解决 了 信用 分 配 问 题 。 但 是 在 介绍 反 向 传播 算法 之 前 ， 我 们 在 下 一 节 中 
讲述 监督 学 习 的 两 种 基本 方法 。 


4.3 批量 学 习 和 在 线 学 习 


考虑 具有 一 个 由 源 节点 组 成 的 输入 层 、 一 个 或 多 个 隐藏 层 、 由 一 个 或 者 多 个 神经 元 组 成 的 
输出 层 的 多 层 感知 器 ， 如 图 4. 1 所 示 。 令 
J = (x(a), dln) Y (4.1) 
用 于 训练 网 络 的 训练 样本 采用 有 监督 方式 。 令 % (n) 记 为 在 输出 层 第 j 个 神经 元 输出 产生 的 函 
数 信 号 ， 这 一 函数 信号 是 由 作用 在 输入 层 的 刺激 x(n) 所 产生 的 。 相 应 地 ， 神 经 元 i 的 输出 所 产 
生 的 误差 信号 定义 为 : 
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e;(n) = d;(n) — y;(n) (4. 2) 
ue d; (nn) 是 期 望 响应 向 量 d(n) 的 第 ; 个 元 素 。 根 据 在 第 3 章 学 习 过 的 LMS 算法 的 术语 ， 神 
经 元 j 的 瞬时 误差 能 量 (instantaneous error energy) 定义 为 


Eo) = Ten) (4. 3) 
将 所 有 输出 层 神经 元 的 误差 能 量 相 加 ， 得 到 整个 网 络 的 全 部 瞬时 误差 能 量 (total instantaneous 


error energy): 
€(n) = > En) = GKG (4, 4) 


其 中 集合 C 包括 输出 层 的 所 有 神经 元 。 TIRARA NN 个 样 例 ， 训 练 样本 上 的 平均 误差 
能 量 (error energy averaged over the training sample) 或 者 说 经 验 风 险 (empirical risk) 定 
MA: 

BN) = 4 4D En) = > Sei (n) (4.5) 


自然 ， apnea MDL REIS Raa Ee Um TERR ( 即 自由 参数 ) 的 
函数 。 这 一 函数 依赖 性 没有 包含 在 名 (n) 和 包 .(CN) 的 公式 中 ， 这 仅仅 是 为 了 简化 表达 。 

根据 多 层 感知 器 监督 学 习 的 实际 执行 方式 ， 可 以 给 出 两 种 不 同 的 方法 一 一 即 批量 学 习 和 在 
线 学 习 ， 在 下 面 梯度 下 降 的 讨论 中 将 对 此 进行 探讨 。 
批量 学 习 

在 监督 学 习 的 批量 方法 中 ， 多 层 感 知 器 的 突 触 权 值 的 调整 在 训练 样本 集合 9 的 所 有 NN 个 样 
例 都 出 现 后 进行 ， 这 构成 了 训练 的 一 个 回合 〈epoch) 。 换 名 话说， 批量 学 习 的 代价 函数 是 由 平 
均 误 差 能 量 包 ,定义 的 。 多 层 感 知 器 的 突 触 权 值 的 调整 是 以 回合 -回合 为 基础 的 〈epoch-by-epoch 
basis) 。 相 应 地 ， 学 习 曲 线 的 一 种 实现 方式 是 通过 描画 名 ,对 回合 数 的 图 形 而 得 到 ， 对 于 训练 的 
每 一 个 回合 ， 训 练 样本 集 9 的 样 例 是 随机 选取 的 《randomly shuffled)。 学 习 曲 线 通 过 对 足够 大 
量 的 这 样 实 现 的 总 体 平均 (ensemble averaging) 来 计算 ， 这 里 每 次 实现 是 在 随机 选取 不 同 初 
始 条 件 下 完成 的 。 

用 梯度 下 降 法 来 实现 训练 时 ， 批 量 学 习 的 优点 在 于 : 

。 对 梯度 向 量 ( 即 代价 函数 名 ,对 权 值 向 量 w 的 导数 ) 的 精确 估计 ， 因 此 ， 在 简单 条 件 

下 ,保证 了 这 一 方法 最 速 下 降 到 局 部 极 小 点 的 收敛 性 。 

。 学 习 过 程 的 并 行 性 。 

然而 ， 从 实际 观点 看 ， 批 量 学 习 有 着 存储 需求 〈storage requirement). 

从 统计 的 角度 看 ， 批 量 学 习 可 以 看 成 是 某 种 形式 的 统计 推断 (statistical inference), 因此 
它 很 适合 于 解 非 线性 回归 问题 。 
在 线 学 习 

在 监督 学 习 的 在 线 方法 下 ， 对 于 多 层 感 知 器 突 触 权 值 的 调整 是 以 样 例 - 样 例 为 基础 的 《ex- 
ample-by-example basis)。 用 来 最 小 化 的 代价 函数 是 全 体 瞬 时 误差 能 量 %g(n)。 

考虑 由 N 个 训练 样本 构成 的 一 个 回合 ， 样 本 的 顺序 是 (x1) dC}, (x(2),d(2)},*…， 
{xCN),d(N)})。 回合 中 第 一 个 样 例 对 {x(1),d(1)) 输入 给 网 络 时 ， 梯 度 下 降 法 被 用 来 调整 权 
值 。 然 后 回合 中 第 二 个 样本 {x(2),d(2)) 输入 给 网 络 ， 这 导致 对 网 络 权 值 的 进一步 调整 。 这 
一 过 程 不 断 持续 直到 最 后 一 个 样 例 {x(N),d(N)}。 遗 憾 的 是 ， 这 样 的 过 程 违反 了 在 线 学 习 的 
并 行 性 。 

对 于 给 定 的 初始 条 件 集合 ， 学 习 曲 线 的 一 种 实现 是 靠 以 下 方式 得 到 的 ， 对 训练 过 程 中 的 回 
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A, HM RAEN) ,这 里 和 前 面 一 样 。 训 练 样 例 是 在 每 个 回合 后 随机 选取 的 。 和 批量 学 习 
一 样 ， 在 线 学 习 的 学 习 曲 线 是 通过 对 足够 大 量 的 随机 选取 的 初始 条 件 上 的 总 体 平均 来 计算 的 。 
自然 地 ， 对 于 给 定 的 网 络 结构 ， 在 线 学 习 下 获得 的 学 习 曲 线 和 批量 学 习 下 获得 的 学 习 曲 线 有 着 
很 大 的 不 同 。 

给 定 训练 样本 以 随机 的 方式 呈现 给 网 络 ， 在 线 学 习 的 使 用 使 得 在 多 维权 值 空间 中 的 搜索 事 
实 上 是 随机 的 ; 正 是 由 于 这 个 原因 ， 在 线 学 习 方法 有 时 被 称 为 随机 方法 。 这 一 随机 性 具有 所 希 
望 的 学 习 过 程 不 容易 陷 人 局 部 极 值 点 的 效果 ， 这 是 在 线 学 习 好 于 批量 学 习 的 明确 意义 所 在 。 在 
线 学 习 的 另 一 个 优点 在 于 它 比 批量 学 习 需 要 的 存储 量 要 少 得 多 。 

而 且 ， 如 果 训 练 数据 是 兄 余 的 〈 即 训练 样本 集 g 包 含 同一 个 样 例 的 多 个 复制 )， 我 们 发 现 ， 
和 批量 学 习 不 同 ， 在 线 学 习 能 够 从 宛 余 性 中 获 益 ， 因 为 在 一 次 学 习 中 样 例 只 出 现 一 个 。 

在 线 学 习 的 另 一 个 有 用 的 性 质 是 它 能 够 思 踪 训练 数据 的 小 的 改变 ， 尤 其 是 产生 数据 的 环境 
是 不 稳定 的 情况 下 。 

总 之 ， 尽 管 在线 学 习 有 一 些 缺 点 ， 但 它 在 解决 模式 分 类 问题 时 仍然 是 流行 的 方法 ， 原 因 有 
以 下 两 点 : 

。 在 线 学 习 容 易 执行 。 

。 对 于 大 规模 和 困难 模式 分 类 问题 它 提供 有 效 解 。 

正 是 由 于 这 两 个 原因 ， 本 章 中 大 量 的 内 容 都 是 关于 在 线 学 习 的 。 


44 反 向 传播 算法 


多 层 感 知 器 监督 训练 在 线 学 习 的 流行 由 于 反 向 传播 算法 的 提出 而 得 到 了 加 强 。 为 了 描述 这 
一 算法 ， 考 虑 图 4. 3， 它 描绘 神经 元 j 被 它 左边 的 一 层 神经 元 产生 的 一 组 函数 信号 所 馈 给 。 因 
此 ， 在 神经 元 57 的 激活 函数 输入 处 产生 的 诱导 局 部 域 w (z) 是 : 


v; (a) = >) wi (D y) (4. 6) 


HAJJ 
-人 - -一 - 








~ 


d;(n) 








CO 一 一 一 > -一 一 -Oe,(n) 





Ya (n) 
图 4.3 显现 输出 神经 元 ; 细节 的 信号 流 图 


这 里 m 是 作用 于 神经 元 j 的 所 有 输入 〈 不 包括 偏 置 ) 个 数 。 突 触 权 值 wo 〈 对 应 于 固定 输入 
yoo tl) 等 于 神经 元 j 的 偏 置 5;。 所 以 选 代 nn 时 出 现在 神经 元 j 输出 处 的 函数 信号 y Cn) 是 
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yn) = DC) (4. 7) 

反 向 传播 算法 以 与 第 3 章 学 习 过 的 LMS 算法 类 似 的 方式 对 突 触 权 值 w 2) 应 用 一 个 修正 值 
Aw; (n)， 它 正比 于 偏 导 数 88(z)/aror (n)。 根 据 微分 的 链 式 规则 ， 可 以 将 这 个 梯度 表示 为 : 

DEn) Eln) deln) Oy;n) dv;(n) 











dw; (n) de; (n) Əy; n) dv; n) Jw; (n) (4. 8) 
偏 导数 En) dw Ca) 代表 一 个 敏感 因 了 于， 决定 罕 触 权 值 w; 在 权 值 空间 的 搜索 方向 。 
在 式 (4. 4) 两 边 对 e (2)? 取 微分 ， 得 到 : 
an) _ 
de; (n) = ej (n) (4, 9) 
ERC. 2) 两 边 对 y (2z) 取 微分 ， 得 到 : 
deln) _ 
By, n) 1 (4. 10) 
接着 ， 在 式 (4.7) 两 边 对 v MRAR. A: 
Sue = gi Cu CD) (4.11) 


这 里 ， 导 数 符 号 〈 等 式 右边 ) 的 使 用 强调 了 对 于 自 变量 的 微分 。 最 后 ， 在 式 (4.6) 两 边 对 
wi《n) 取 微分 ， 得 到 : 
Ov; (n) 








Sw, (n) = y,(n) (4. 12) 
将 式 (4. 9) 至 式 (4. IDRAR. 8) ， 得 到 : 
ney 一 一 e; (ngi Cu; (n)) y; (n) (4, 13) 
应 用 于 wy (n) 的 修正 Aw, (n) h delta 法 则 定义 为 
Aw; (1) 一 一 7 ae (4. 14) 


其 中 了 是 反 向 传播 算法 的 学 习 率 参数 。 式 (4. 14) 中 负 号 的 使 用 意味 着 在 权 空间 中 梯度 下 降 〈 即 
寻找 一 个 使 得 名 (n) 值 下 降 的 权 值 改变 的 方向 )}。 于 是 将 式 (4.13) 代 入 式 (4. 14) 中 得 到 : 

Aw; (n) = 76; (n) y: (n) (4.15) 
这 里 局 域 梯度 8 EA: 


_ 0m) _ DEM) de m Oyj _ hoe 
6; (n) = Bu,(n) dn) dy; Cn) do, e; (1n) 9; Cv;(n)) (4. 16) 


局 域 梯度 指明 突 触 权 值 所 需要 的 变化 。 根 据 式 (4. 16)， 输 出 神经 元 7 的 局 域 梯度 85; (2) 等 于 该 
神经 元 相应 误差 信号 e (n) 和 相应 激活 函数 的 导数 gp; (vj (n)) 的 乘积 。 

从 式 (4.15) 和 式 (4. 16) 我 们 注意 到 ， 权 值 调整 Aw: (n) 计 算 所 涉及 的 一 个 关键 因子 是 神经 
元 ;输出 端的 误差 信号 e;(n)。 在 这 种 情况 下 ， 我 们 要 根据 神经 元 ; 的 不 同位 置 来 区 别 两 种 不 
同 的 情况 。 第 一 种 情况 ， 神 经 元 j 是 输出 节点 。 这 种 情况 的 处 理 很 简单 ， 因 为 网 络 的 每 一 个 输 
出 节点 都 提供 自己 期 望 的 反应 信号 ， 使 得 计算 误差 信号 变 得 非常 简单 。 在 第 二 种 情况 下 ， 神 经 
元 7 是 隐藏 层 节 点 。 虽 然 隐 藏 层 神 经 元 不 能 直接 访问 ， 但 是 它们 分 担 对 网 络 输出 的 误差 的 责 
任 。 然 而 ， 问 题 是 要 知道 对 隐藏 层 神经 元 这 种 共 担 的 责任 如 何 进行 惩罚 或 奖赏 。 这 就 是 在 第 
4: 2 节 中 讨论 过 的 信用 分 配 问题 。 
情况 1 神经 元 | 是 输出 节点 

当 神 经 元 j 位 于 网 络 的 输出 层 时 ， 给 它 提供 自己 的 一 个 期 望 响应 。 我 们 可 以 用 式 (4. OK 

: 计算 这 个 神经 元 的 误差 信号 6; (n) ; 参看 图 4. 3。 当 e (n) 确 定 以 后 ， 用 式 (4.16) 来 计算 局 域 梯 
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度 5 (2) 是 很 直接 的 。 
情况 2 神经 元 ) 是 隐藏 层 节 点 

当 神 经 元 j 位 于 网 络 的 隐藏 层 时 ， 就 没有 对 该 输入 神经 元 的 指定 期 望 响 应 。 因 此 ， 隐 藏 层 的 
误差 信号 要 根据 所 有 与 隐藏 层 神经 元 直接 相连 的 神经 元 的 误差 信号 来 向 后 递归 决定 。 这 就 是 为 什 
么 反 向 传播 算法 的 提出 变 得 很 复杂 的 原因 。 考 虑 在 图 4.4 中 所 描绘 的 情况 ， 它 描绘 的 神经 元 5 就 
是 一 个 网 络 隐藏 层 节点 。 根 据 式 (4. 16)， 可 把 隐藏 层 神经 元 的 局 域 梯度 8 (nn) 重新 定义 为 ; 


O(n) dyn) __ IE) ， whine OB 
Oy; (n) du; Cn) By, (nye! OODD WET j 是 隐藏 的 (4. 17) 


神经 元 / 神经 元 


人 (n) = 














Wi (n) =b; (n) d, (n) 
k 





Oe (n) 





v (n) eC) yín) & wa(n) v,(n) gC) wi) 3! 


4.4 显现 输出 神经 元 连接 到 隐藏 神经 元 7 的 信号 流 图 


公式 的 第 二 行 用 到 了 式 (4. 11)。 要 计算 偏 导 8 名 (n)/3y;(n) 我 们 进行 如 下 处 理 。 从 图 4.4 可 以 
A Bl: 
En) 一 Vein) ,神经 元 上 是 输出 节点 (4. 18) 


这 就 是 对 式 (4. DHT k ERFIR 。 这 人 么 写 是 为 了 避免 与 在 情况 2 使 用 下 标 ) 表示 一 个 隐藏 
神经 元 相 混淆 。 在 式 (4. 18) 两 边 对 函数 信和 号 y; (n) 求 偏 导 ， 得 到 : 

oS) __ de, (n) 

Əy; (n) A ay; Cn) 
接着 对 偏 导 数 OE, n) /dy; (2) 使 用 链 式 规 则 ， 重 写 式 4.19 为 等 价 形式 ， 


OBn) _ de, (n) Ov, Cn) 
aym 一 Da S By, Cn) (4. 20) 


然而 ， 从 图 4.4 我 们 注意 到 : 
e(n) = di (n) — y(n) = qdi(n) 一 gilve(n))， 神经 元 为 输出 节点 (4. 21) 


(4. 19) 














因此 


Oe —— gh Cyn) (4. 22) 
k 


我 们 从 图 4. 4 也 要 注意 到 对 神经 元 & 来 说 ， 诱 导 局 部 域 是 : 
UE (n) = Sws Cn) y; Cn) (4. 23) 
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这 里 疡 是 神经 元 & 的 所 有 输入 的 个 数 (不 包括 偏 置 )。 同 样 在 这 里 突 触 权 值 we Cn) 等 于 作用 于 
神经 元 的 偏 置 b(n)， 相 应 的 输入 是 固定 在 值 十 1 处 的 。 求 式 (4. 23) 对 y Cn) 的 微分 得 到 : 
ou, (n) 








= wy (n) (4. 24) 
Əy; Cn) 
HRA. 22) ARA. 24) 代 入 式 (4. 20) ， 得 到 期 望 的 偏 微分 : 
ae 一 一 Perm pv Dwy (n) 一 一 D184) wy (n) (4. 25) 


在 第 二 行 用 到 局 域 梯度 2 (2) 的 定义 ， 它 由 式 (4. 16) 给 出 ， 其 中 用 下 标 & ERG. 
最 后 ， 用 式 (4. 25) 代 入 式 (4. 17)， 得 到 关于 局 域 梯度 6; ON REBAR : 






Ò Cn) = p on Dwyn, 神经 元 /为 隐藏 单元 (4. 26) 
图 4. 5 代表 式 (4. 26) 的 信号 流 图 ， 假 设 输出 层 有 m 个 神经 元 。 
ER (4.26) 中 与 局 域 梯度 6; (x) 的 计算 有 关 的 因子 sin) oi) 
gw) 仅仅 依赖 于 隐藏 层 神经 元 j 的 激活 函数 。 这 个 计 vn) im 


算 涉及 的 其 余 因 子 ， 也 就 是 所 有 神经 元 的 和 ， 依 赖 于 两 i 
组 项 。 第 一 项 的 集合 需要 以 下 神经 元 的 误差 信号 eta L led 8G) HY? o 
识 ， 这 些 神经 元 紧 接 隐藏 层 神经 元 7 右 端 ， 且 直接 与 神经 : : 
元 j 相连 ; 参看 图 4.4。 第 二 项 的 集合 wy (nm) 是 由 所 有 这 些 4/0 





连接 的 突 触 权 值 组 成 的 。 | Pin, Mp, (n)) 

ME REM- BRACE US A SS A 
神经 元 了 连接 到 神经 元 的 突 郁 权 值 的 校正 值 aw Cod EO 系统 的 部 分 信号 流 因 
delta 规则 定义 如 下 : 

权 值 es 3] RR i 元 7 HK z= 
[ae |= (PPAR) (ABBR) (MARL AE C4 27) 
Aw, (n) 7 6;(n) y: (n) 


其 次 ， 局 域 梯度 8;(n) 取 决 于 神经 元 j 是 一 个 输出 节点 还 是 一 个 隐藏 层 节点 ， 

1. 如 果 神 经 元 ) 是 一 个 输出 节点 ，6, (nn) 等 于 导数 of (ww (n)) 和 误差 信号 ej (Co 的 乘积 ， 它 
们 都 和 神经 元 7 相关 联 ， 参看 式 (4. 16)。 

2. 如 果 神 经 元 ) ERRETA, (四 等 于 相应 导数 wy (wv; (n)) 和 6; 的 加 权 和 的 乘积 ， 这 
些 8 是 对 与 神经 元 ; 相连 的 下 一 个 隐藏 层 或 输出 层 中 的 神经 元 计算 得 到 的 ， 参 看 式 (4. 26) 。 
计算 的 两 次 通过 

在 反 向 传播 算法 的 应 用 中 ， 计 算 有 两 种 截然 不 同 的 通过 。 第 一 个 通过 是 指 前 向 通过 ， 而 第 
二 个 是 指 反 向 通过 。 

在 前 向 通过 中 ， 经 过 网 络 时 突 触 权 值 保持 不 变 ， 而 网 络 的 函数 信号 在 一 个 神经 元 接 一 个 神 
经 元 基础 上 计算 。 出 现在 神经 元 j 输出 处 的 函数 信号 计算 为 : 


yi(n) = glv;n)) (4. 28) 
其 中 wv; (n) 是 神经 元 ; 的 诱导 局 部 域 ， 定 义 为 : 
v; (n) = >) wy (n) yi(n) (4. 29) 


这 里 ，m 是 神经 元 ) 的 所 有 输入 的 数量 〈 不 包括 偏 置 )， 而 wi DRERM AT i 和 神经 元 7 的 
突 触 权 值 ，y; (zz) 是 指 神经 元 7 的 输入 信号 或 是 出 现在 神经 元 i 的 输出 端的 函数 信号 。 如 果 神 经 
元 j MAW SBR. Umm 且 下 标 i 是 指 网 络 的 第 ; 个 输入 端点 ， 我 们 写作 : 

y(n) = zi(n) (4. 30) 
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这 里 zx;(n) 是 指 输入 向 量 ( 模 式 ) 的 第 ; 个 元 素 。 在 另 一 方面 ， 如 果 神 经 元 7 在 网 络 的 输出 层 ， 
则 m=m,, FFA FRJ] 是 指 网 络 的 第 7 个 输出 端点 ， 我 们 写作 : 
yin) = o(a) (4. 31) 

这 里 o (2) 是 指 多 层 感 知 器 输出 向 量 的 第 7 个 元 素 。 这 个 输出 和 期 望 响应 di (n) 相 比较 ， 得 到 第 
7 个 输出 神经 元 的 误差 信和 号 e; (n);。 因 此 ， 计算 的 前 向 阶段 由 输入 向 量 馈 给 的 第 一 个 隐藏 层 开 
始 ， 以 输出 层 计 算 该 层 的 每 一 个 神经 元 的 误差 信号 而 结束 。 

另 一 方面 ， 反 向 通过 从 输出 层 开 始 ， 误 差 信 号 向 左 经 过 网 络 一 层 一 层 传 播 ， 并 且 递 归 计 算 
每 一 个 神经 元 的 6( 即 局 部 梯度 )。 该 递归 过 程 允许 突 触 权 值 根据 式 (4. 27) 的 delta 规则 变化 。 
对 于 位 于 输出 层 的 神经 元 , 6 简单 地 等 于 这 个 神经 元 的 误差 信号 乘 以 它 的 非 线性 一 次 导数 。 因 
此 ， 我 们 使 用 式 (4. 27) 来 计算 所 有 人 馈 人 输出 层 的 连接 的 权 值 变化 。 给 出 输出 层 神经 元 的 8， 接 
FERU 26) 来 计算 倒数 第 二 层 的 所 有 神经 元 的 8 和 所 有 人 馈 和 人 该 层 的 连接 的 权 值 变化 。 通 过 传 
播 这 个 变化 给 网 络 的 所 有 突 触 权 值 ， 一 层 接 一 层 连续 递归 计算 。 

注意 ， 由 于 每 给 出 一 个 训练 例子 ， 其 输入 模式 在 整个 往返 过 程 中 是 国定 的 (钳制 的 )， 这 
个 往返 过 程 包括 前 向 通过 和 随后 的 反 向 通过 。 
激活 函数 

计算 多 层 感知 器 每 一 个 神经 元 的 人 需要 神经 元 的 激活 函数 p(，) 的 导数 知识 。 导 数 存 在 
的 条 件 是 函数 p(。) 连 续 。 从 根本 上 讲 ， 激 活 函 数 必需 满足 的 要 求 是 可 微 性 。 通 常用 于 多 层 
感知 器 的 连续 可 微 非 线 性 激活 函数 的 一 个 例子 是 sigmoid 非 线 性 性 !; 这 里 有 两 种 形式 要 说 
— F: 

1. logistic 函数 。 这 种 sigmoid 非 线 性 性 的 一 般 形式 由 
a>0 (4, 32) 





1 
1 + exp(— av, ())’ 
定义 ， 这 里 w (nz) 是 神经 元 j 的 诱导 局 部 域 。 根 据 这 种 非 线 性 性 ， 输 出 的 范围 位 于 SyS 
之 内 。 对 式 (4. 32) 取 vn) 的 微分 ， 得 到 


gı (vi (n)) 一 


9; Cu; (n)) = 


aexp(— av; (n)) 
[1 + exp a, (n)) | (4. 33) 
HF y (a) = 9; Cu; (n))， 我 们 可 以 从 式 (4.33) 中 消去 指数 项 exp (一 av; (nn))， 所 以 导数 
gf (vj《n)) 可 以 表示 为 : 





g; Cy (n) = ay; WL1— y; m] (4. 34) 
因为 神经 元 j 位 于 输出 层 ， 所 以 yj (n) 二 0;(n)。 因 此 可 以 将 神经 元 j 的 局 域 梯度 表示 为 
6; 1) = e;(n) gj (u;(m)) = ald; Cn) — o (Mlo Cm)[1 一 o0;(n)],j 输出 节点 (4, 35) 
这 里 的 o (n) BHAT 输出 端的 函数 信号 ， 而 d; (nn) 是 它 的 期 望 响应 。 另 一 方面 ， 对 任意 的 一 
个 隐藏 层 神经 元 7 ， 可 以 将 局 域 梯度 表示 为 : 
6; (n) = $3 Cu; (n)) Sd (n) wy (n) 





(4, 36) 
= ay; MEL — y(n) 9d) wy (n), 了 为 隐藏 神经 元 
k 


从 式 (4.34) 可 以 看 出 ， 导 数 go om) 49) =0.5 时 取 最 大 值 ， 当 y; (mw) 一 0 Ry n=l 
时 取 它 的 最 小 值 0) 。 既 然 网 络 的 一 个 突 触 权 值 的 变化 总 量 与 导数 gj Cv; Cn) ) 成 比例 ,因此 对 
于 一 个 sigmoid 激活 函数 来 说 ， 突 触 权 值 改变 最 多 的 神经 元 是 那些 函数 信号 在 它们 的 中 间 范 转 
之 内 的 网 络 的 神经 元 。 根 据 Rumelhart 等 (1986a)， 正 是 反 向 传播 学 习 的 这 个 特点 导致 它 作为 
学 习 算 法 的 稳定 性 。 

2. 双 曲 正切 函数 。 另 外 一 个 经 常 使 用 的 sigmoid 非 线性 形式 是 双 曲 正切 函数 ， 它 的 最 通用 
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的 形式 由 
g; (v;(n)) = atanh(bv;(n)) (4. 37) 
定义 ， 这 里 a 和 是 正常 数 。 事 实 上 ， 双 曲 正 切 函 数 只 是 伸缩 和 平移 的 logistic BR. EX 
v 2) 的 导数 如 下 : 
ep; (u;(n)) = absech’ (bu; (n)) = ab(1 — tanh’ (bw;(n))) = oa — y; (n) La + y; Cn) ] 
《4. 38) 
如 果 神 经 元 j 位 于 输出 层 ， 它 的 局 域 梯度 是 ， 
6; Cn) = e; Cn); Co; (n)) 
= Pd n) — o; (m) La — o; (m La + o; (n)] (A. 39) 


如 果 神 经 元 7 位 于 隐藏 层 ， 我 们 有 
S; Cn) = p; (0;(n)) Dy (n) wy (n) 
5 ‘ (4. 40) 
一 也 [a — y(n) [at y; mD] a wy (n) ,神经 元 I 为 隐藏 神经 元 
k 


对 logistic 函数 使 用 式 (4. 35) 和 式 (4. 36) VA Be WS A h E H A E R C. 39) 和 式 (4. 40) ， 不 需 
要 激活 函数 的 具体 信息 就 可 以 计算 局 域 梯度 ò; 。 
学 习 率 . 

反 向 传播 算法 提供 使 用 最 速 下 降 方 法 在 权 空 间 计算 得 到 的 轨迹 的 一 种 近似 。 使 用 的 学 习 率 
参数 vy 越 小 ， 从 一 次 迭代 到 下 一 次 迭代 的 网 络 突 触 权 值 的 变化 量 就 越 小 ， 轨 迹 在 权 值 空间 就 越 
光滑 。 然 而 ， 这 种 改进 是 以 减 慢 学 习 速 度 为 代价 的 。 另 一 方面 ， 如 果 让 了 的 值 太 大 以 加 快 学 习 
速度 的 话 ， 结 果 就 有 可 能 使 网 络 的 突 触 权 值 的 变化 量 不 稳定 ( 即 振 葛 ) 。 一 个 既 要 加 快 学 习 速 度 
又 要 保持 稳定 的 简单 方法 是 修改 式 (4. 15) 的 delta 法 则 ， 使 它 包 括 动量 项 ， 表 示 为 


Aw; Cn) = eaArz (n — 1) + nò; (2) y: (4. 41) 
这 里 a 是 动量 常数 ， 通常 是 正 数 。 它 控制 围绕 AW; (n) 的 Sn) yAn) 
反馈 环 路 ， 如 图 4. 6 所 示 ， 其 中 zx”! 表示 单位 时 间 延 迟 操作 ， 
符 。 式 (4. 41) 被 称 之 为 广义 delta 规则 *; 它 包括 式 (4.15) Z " 


的 delta 规则 作为 特殊 情况 〈 即 c 一 0) 。 

为 了 观察 动量 常数 a 在 一 系列 模式 呈现 上 对 突 触 权 值 
的 影响 ， 我 们 将 式 (4. 41) 重新 写 为 带 下 标 的 一 个 时 间 序 
Bl. Alc 从 初始 时 刻 0 到 当前 时 刻 x。 式 (4. 41) 可 被 视 为 ”图 4.6 说 明 动量 常数 a 作用 的 信号 
权 值 修正 量 Aw, (n) 的 一 阶 差 分 方程 。 解 这 个 关于 Aw; (n) 流 图 ， 它 位 于 反馈 环 内 部 
的 方程 得 到 


Aw,(n-1) Aw,(n) 


Aw; (nn) = Dad, (2) y(t) (4. 42) 
它 代 表 一 个 长 度 为 n 十 1 的 时 间 序 列 。 从 式 (4. 13) 和 式 (4.16)， 可 知 6 Cn)y;(n) 等 于 一 9 多 (n)/ 
Ow; ln). 因此 将 方程 (4. 42) 重 写 为 等 价 形式 : 

Aw; (n) 一 一 72e“ O] (4. 43) 
在 这 个 关系 的 基础 上 ， 我 们 来 做 以 下 深入 观察 : 


1. 当前 修正 值 Avy, (x) 代 表 指 数 加 权 的 时 间 序 列 的 和 。 和 欲 使 时 间 序 列 收 敛 ， 动 量 常数 必须 
限制 在 OS | a | 二 1 范围 内 。 当 a 等 于 0 时 ， 反 向 传播 算法 运行 起 来 没有 动量 。 虽 然 在 实际 中 
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动量 常数 x 不 大 可 能 是 负 的 ， 但 它 还 是 可 正 可 负 。 

2. 当 偏 导数 OE) dw: (2?) 在 连续 迭代 中 有 相同 的 代数 符号 ， 指 数 加 权 和 Aw; (n) 在 数量 
上 增加 ， 所 以 ， 权 值 Aw, (n) 被 大 幅度 调整 。 在 反 向 传播 算法 中 包含 动量 趋 于 在 稳定 的 下 降 方 
向 上 加 速 下 降 。 

3. 当 偏 导数 OE) dw: () 在 连续 迭代 中 有 相反 的 代数 符号 ， 指 数 加 权 和 Aw; (mn) 在 数量 
ERD, BU, RÉ w (n) 调 整 不 大 。 在 反 向 传播 算法 中 包含 动量 具有 符号 正 负 摆动 方向 的 稳 
定 效 果 。 

在 反 向 传播 算法 中 ， 动 量 的 使 用 对 更 新 权 值 来 说 是 一 个 较 小 的 修改 ， 而 它 对 算法 的 学 习 
可 能 会 有 一 些 有 利 的 影响 。 动 量 项 可 能 也 有 益 于 防止 学 习 过 程 停止 在 误差 曲面 上 的 局 部 最 
小 值 。 

在 导出 反 向 传播 算法 时 假设 学 习 率 参 数 1 是 一 个 常数 。 然 而 ， 事 实 上 它 应 该 被 定义 为 gis 
也 就 是 说 ， 学 习 率 参数 应 该 是 连接 依赖 〈connection dependent) 的 。 确 实 ， 在 网 络 的 不 同 地 
方 使 用 不 同 的 学 习 率 参数 会 发 生 很 多 有 趣 的 事情 。 关 于 这 一 点 在 后 续 节 中 我 们 会 给 出 详细 
描述 。 

同样 值得 注意 的 是 ， 我 们 在 反 向 传播 算法 的 应 用 中 可 以 选择 使 所 有 突 触 权 值 都 是 可 调整 
的 ， 或 者 在 自 适应 过 程 中 可 能 限制 网 络 中 某 些 权 值 使 其 保持 固定。 对 于 后 者 ， 误 差 信 号 是 以 通 
常 的 方式 通过 网 络 反 向 传播 的 ; 然而 ， 固 定 的 突 触 权 值 是 不 改变 的 。 这 一 点 可 以 简单 通过 使 突 
触 权 值 的 学 习 率 参数 坊 等 于 0 来 做 到 。 
停止 准则 

通常， 不 能 证 明 反 向 传播 算法 是 收敛 的 ， 并 且 没有 明确 定义 的 算法 停止 准则 。 相 反 ， 仅 有 
一 些 合理 的 准则 ， 它 们 每 个 都 有 自己 的 实际 用 处 ， 这 些 准 则 可 以 用 于 终止 权 值 的 调整 。 要 提出 
这 样 一 个 准则 ， 考 虑 关于 误差 曲面 ! 的 局 部 或 全 局 最 小 的 特殊 人 性质 是 符合 逻辑 的 。 将 权 值 向 量 
v 标记 为 局 部 或 全 局 最 小 点 。 要 使 w* 成 为 最 小 点 的 一 个 必要 条 件 是 误差 曲面 对 权 值 向 量 w 的 
梯度 向 量 gC(w) 〈 即 一 阶 偏 导数 ) 在 w= 二 w* 处 等 于 0。 因 此 ， 我 们 可 以 提出 反 向 传播 学 习 的 一 
个 合理 的 收敛 准则 (Kramer and Sangiovanni-Vincentelli, 1989): 

当 梯 度 向 量 的 欧 几 里 得 范 数 达到 一 个 充分 小 的 梯度 阅 值 时 ， 我 们 认为 反 向 传播 算法 已 经 收 伊 。 

这 个 收敛 准则 的 缺点 是 ， 为 了 成 功 试验 ， 学 习 时 间 可 能 会 很 长 。 同 时 它 需 要 计算 梯度 向 量 gCw)。 

另 一 个 我 们 能 够 使 用 的 最 小 点 的 特殊 性 质 是 代价 函数 或 误差 量度 ,(w) 在 wow" 处 是 平稳 
的 。 因 此 ， 我 们 可 以 建议 一 个 不 同 的 收敛 准则 : 

当 每 一 个 回合 的 均 方 误差 变化 的 绝对 速率 足够 小 时 ， 我 们 认为 反 向 传播 算法 已 经 收敛 。 

均 方 误差 变化 的 速率 如 果 每 个 回合 是 在 0.1% 一 1% ， 一 般 认为 它 足够 小 。 有 时， 每 一 个 回合 
都 会 小 到 0. 01% 这 样 的 值 。 不 幸 的 是 ， 这 个 准则 可 能 会 导致 学 习 过 程 的 过 早 终 止 。 

还 存在 另 -- 个 有 用 的 且 有 理论 支持 的 收敛 准则 。 在 每 一 步 学 习 和 迭代 之 后 ， 都 要 检查 网 络 的 
泛 化 性 能 。 当 泛 化 性 能 是 适当 的 ， 或 泛 化 性 能 明显 达到 峰值 时 ， 学 习 过 程 被 终止 : 第 4. 13 节 
将 介绍 更 多 细节 。 

反 向 传播 算法 小 结 

图 4.1 给 出 了 一 个 多 层 感 知 器 的 结构 布局 。 图 4.7 给 出 了 LL=2 和 m =m 一 ma 一 3 的 情况 
下 反 血 传播 学 习 的 相应 的 信号 流 图 ， 包 括 学 习 过 程 计算 的 前 向 和 反 向 阶段 。 信 和 号 流 图 的 上 面 一 
部 分 是 说 明 前 向 通过 的 。 信 入 流 图 的 下 面 一 部 分 是 说 明 反 向 通过 的 ， 这 也 称 为 在 反 向 传播 算法 

中 计算 局 域 梯度 的 灵 教 图 (sensitivity graph) (Narendra and Parthasarathy, 1990), 
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图 4.7 反 向 传播 学 习 信 号 流 图 小 结 。 图 顶部 : 前 向 通过 。 图 底部 : 反 向 通过 


前 面 我 们 提 到 权 值 的 串 行 更 新 是 反 向 传播 算法 的 在 线 实现 的 更 好 方法 。 对 这 种 运行 方式 ， 
算法 通过 训练 样本 {(x(n) ,dC0z)))> 一 1 进行 如 下 循环 : 

1. 初始 化 。 假 设 没有 先 验 知 识 可 用 ， 我 们 以 一 个 一 致 分 布 来 随机 地 挑选 突 触 权 值 和 靖 值 ， 
这 个 分 布 选择 为 均值 等 于 0 的 均匀 分 布 ， 它 的 方差 的 选择 应 该 使 得 神经 元 的 诱导 局 部 域 的 标准 
偏差 位 于 sigmoid 激活 函数 的 线形 部 分 与 饱和 部 分 过 渡 处 。 

2. 训练 样本 的 呈现 。 呈 现 训练 样本 的 一 个 回合 给 网 络 。 对 训练 集中 以 某 种 形式 排序 的 每 
个 样本 ， 依 次 进行 下 面 的 第 3 点 和 第 4 点 中 所 描述 的 前 向 和 反 向 计算 。 

3. 前 向 计算 。 在 该 回合 中 设 一 个 训练 样本 是 (x(n),d(n))， 输 入 向 量 x(n) 作 用 于 感知 节 
点 的 输入 层 ， 期 望 响应 向 量 d(n) 指 向 计算 节点 的 输出 层 。 不 断 经 由 网 络 一 层 一 层 地 前 进 ， 可 
以 计算 网 络 的 诱导 局 部 域 和 函数 信号 。 在 层 ! 的 神经 元 7 的 诱导 局 部 域 ,;”(n) 为 

vP Cn) = Dw Gy" On) (4. 44) 


这 里 yO? (1) 是 迭代 时 前 面 第 1 一 1 层 的 神经 元 i 的 输出 〈 范 数 ) 信和 号， 而 w DEM 
第 /一 1 层 的 神经 元 i 指向 第 7 层 的 神经 元 7 的 权 值 。 对 ;一 0， 我 们 有 ys a=, HEA 
we (n) =b (n) 是 第 ! 层 的 神经 元 ;7 的 偏 置 。 假 设 使 用 一 个 sigmoid BR, Wl 层 的 神经 元 7 
的 输出 信和 号 是 : 
yP = gv; (n)) 
如 果 神 经 元 7 是 在 第 一 隐藏 层 〈 即 /一 1)， 置 
y(n) = zj;(n) 
这 里 zj (mn) 是 输入 向 量 z(2) 的 第 7 个 元 素 。 如 果 神 经 元 7 在 输出 层 〈 即 :一 工 ， 这 里 的 工 称 为 网 
络 的 深度 ) ， 令 
yP = ojla) 
计算 误差 信号 
e; (m) = dj(n) — o; (n) (4, 45) 
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这 里 dj (nn) 是 期 望 响 应 向 量 dC2) 的 第 7 OLR. 
4. 反 向 计算 。 计 算 网 络 的 6( 即 局 域 梯度 )， 定 义 为 : 
eP (n) 9; Wi? (n)), 对 输出 层 工 的 神经 元 j 
0? (n) = 了 D G1) (1) pa ži oa (4, 46) 
pi WP aD DO? Caw? (n), RRB LB j 


这 里 of (*) 是 指 对 自 变量 的 微分 。 根 据 广义 delta 规则 调节 网 络 第 ! 层 的 突 触 权 值 : 
wy (n+ 1) = wi? (a) + aL wi? Cn — 1) J+ 96? Cn) yi? (Cn) (4. 47) 
这 里 7 为 学 习 率 参数 ，x 为 动量 常数 。 
5. 迭代 。 通 过 呈现 新 的 一 回合 样本 给 网 络 并 根据 第 3 和 第 4 进行 前 向 和 反 向 迭代 计算 ， 
直到 满足 停止 准则 。 
注意 : 训练 样本 的 呈现 顺序 从 一 个 回合 到 另 一 个 回合 必须 是 随机 的 。 动 量 和 学 习 率 参数 随 
着 训练 迭代 次 数 的 增加 而 调整 (通常 是 减少 的 )。 以 后 会 给 出 这 些 注意 点 的 理由 。 
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在 Rosenblatt 单 层 感知 器 中 ， 没 有 隐藏 神经 元 。 因 此 ， 它 不 能 对 非 线性 可 分 的 输入 模式 
进行 分 类 。 然 而 ， 非 线性 可 分 模式 却 是 普遍 存在 的 。 例 如 ， 对 异 或 (KOR) 问题 就 遇 到 这 
种 情形 ， 它 可 以 看 作 在 单位 超 立 方 体 中 更 一 般 的 点 分 类 问题 的 特例 。 在 超 立 方 体 中 的 每 个 点 
不 是 属于 类 0 就 是 属于 类 1。 但 是 对 异 或 问题 特殊 情形 ， 我们 仅 考虑 单位 正方 形 的 四 个 角 ， 
相应 的 输入 模式 为 (0，0)，(0，1)，(1，0) 和 (1，1)。 第 一 个 和 第 三 个 输入 模式 属于 类 
0， 即 

0 四 0 一 0 
和 

1@®1=0 
KHORMERMRAK MME. BARR (0，0) 和 A, D 是 单位 正方 形 的 两 个 相对 的 
fe, 但 它们 产生 相同 的 结果 是 0。 另 一 方面 ， 输 入 模式 (0，1) 和 (1，0) 是 单位 正方 形 的 另 
一 对 相对 的 角 ， 但 是 它们 属于 类 1， 即 

0@B1=1 
和 

1 四 0 一 1 

首先 我 们 知道 有 两 个 输入 的 单个 神经 元 的 使 用 得 到 的 决策 边界 是 输入 空间 的 一 条 直线 。 
在 这 条 直线 的 一 边 的 所 有 的 点 ， 神 经 元 输出 1; 而 在 这 条 直线 的 另 一 边 的 点 ， 神 经 元 输出 0。 
在 输入 空间 中 ， 这 条 直线 的 位 置 和 方向 由 与 两 个 输入 节点 相连 的 神经 元 的 突 触 权 值 和 它 的 偏 
署 决 定 。 由 于 输入 模式 (0，0) A A, D 是 位 于 单位 正方 形 的 相对 的 两 个 角 ， 输 入 模式 
(0，1) 和 (1，0) 也 一 样 ， 很 明显 我 们 做 不 出 这 样 一 条 直线 作为 决策 边界 可 以 使 (0，0) 
和 (1，1) 在 一 个 区 域 , 而 d, 0 和 (0，1) 在 另 一 区 域 。 换 句 话 说， 一 个 单 层 感知 器 
不 能 解决 XOR 问题 。 

然而 ， 如 图 4. 8a 中 所 示 ， 我 们 可 以 使 用 一 层 有 两 个 神经 元 的 隐藏 层 来 解决 异 或 问题 
(Touretzky and Pomerleau，1989) 。 网 络 的 信号 流 图 在 图 4. 8b 中 给 出 。 这 里 做 以 下 假设 : 

。 每 一 个 神经 元 都 由 一 个 McCulloch-Pitts 模型 表示 ， 使 用 阐 值 函数 作为 它 的 激活 函数 。 

。 比特 符号 0 和 1 分 别 由 水 平 0 和 十 1 表示 。 

隐藏 层 顶部 的 神经 元 标记 为 “神经 元 1”， 有 


Wi 一 Wie =+1 & = 一 六 
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神经 元 1 
x, 
神经 元 3 
> 
神经 元 2 
X 
输入 层 隐藏 层 输出 层 


a) +1 
b) 


图 4.8 a) 解决 XOR 问题 的 网 络 结构 图 ; b) 网 络 信和 号 流 图 


该 隐藏 神经 元 构造 的 决策 边界 的 斜率 等 于 一 1， 在 图 4. 9a 中 给 出 其 位 置 。 在 隐藏 层 的 底部 神经 
元 标记 为 “神经 元 2”， 有 


Wy = wz 一 十 1 b, =—4 


第 二 隐藏 神经 元 构造 的 决策 边界 的 方向 和 位 置 由 图 4. 9b 给 出 。 
图 4. 8a 的 标记 为 “神经 元 3” 的 输出 神经 元 定义 为 
wy =—2 wg = 十 1 b --+ 
输出 神经 元 的 功能 是 对 两 个 隐藏 神经 元 形成 的 决策 边界 构造 线性 组 合 。 这 个 计算 结果 表示 在 
图 4. 9c 中 。 底 部 隐藏 神经 元 由 一 个 兴奋 〈( 正 ) 连接 到 输出 神经 元 ， 而 顶部 隐藏 神经 元 由 一 个 
更 强 的 抑制 〈 负 ) 连接 到 输出 神经 元 。 当 两 个 隐藏 神经 元 都 断 开 时 ， 这 种 情况 当 输 入 信号 是 
(0，0) 时 发 生 ， 输 出 神经 元 保持 断 开 。 当 两 个 隐藏 神经 元 都 接 通 时 ， 这 种 情况 当 输 入 模式 是 
(1, D 时 发 生 ， 输 出 神经 元 也 保持 断 开 ， 因 为 由 连 向 顶部 隐藏 神经 元 负 权 值 产生 的 抑制 效果 
超过 由 连 向 底部 隐藏 神经 元 正 权 值 产 生 的 兴奋 效果 。 当 顶部 隐藏 神经 元 是 断 开 的 而 底部 隐藏 神 
经 元 是 接 通 的 ， 即 输入 模式 是 (0，1) 或 (1，0) 时 ， 输 出 神经 元 是 接 通 的 ， 因 为 正 的 权 值 连 
向 了 底部 隐藏 神 经 元 。 因 此 图 4. 8a 确实 解决 了 蜡 或 问题 。 


(0,1) (1,1) (0,1) (1,1) (0,1) 
输出 











(1,1) 





% 输出 =0 
































(0,0) (1.0) (0.0) (1.0) (0,0) -=Q (1.0) 
输入 zx 输入 x 


a) b) c) 


图 4.9 a) 在 图 4.8 中 的 网 络 隐藏 神经 元 1 所 构造 的 决策 边界 ，b) 网 络 隐藏 神经 元 2 所 构造 的 决策 边界 ， 
c) 整个 网 络 所 构造 的 决策 边界 


4.6 改善 反 向 传播 算法 性 能 的 试探 法 
人 们 常 说 ， 用 于 反 向 传播 算法 的 神经 网 络 的 设计 与 其 说 是 科学 ,不 如 说 更 像 一 门 艺 术 ， 因 
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为 这 个 设计 中 的 很 多 数值 因素 依赖 于 个 人 自己 的 经 验 。 从 某 种 意义 上 讲 这 个 论断 是 正确 的 。 但 
是 ， 也 有 些 方法 能 对 反 向 传播 算法 有 显著 担 高 ， 如 下 所 述 ， 

1. 随机 和 批量 方式 更 新 。 如 前 面 已 经 提 到 过 的 ， 反 向 传播 学 习 的 随机 (BD PA ( 涉 
及 一 个 模式 接 一 个 模式 的 更 新 ) 要 比 批量 方式 的 计算 快 。 特 别 是 当 训 练 数据 集 很 大 且 高 度 元 余 
时 ， 更 是 如 此 。( 高 度 元 余 的 数据 对 批量 方式 更 新 所 需要 的 Jacobi 矩阵 的 估计 提出 了 计算 上 的 
问题 。) 

2. 最 大 信息 内 容 。 作 为 一 个 基本 的 规则 ， 对 呈现 给 反 向 传播 算法 的 每 一 个 训练 样本 的 挑选 必须 
建立 在 其 信息 内 容 对 解决 问题 有 最 大 可 能 的 基础 上 〈LeCun，1993) 。 达 到 这 个 目标 的 两 种 方法 是 : 

。 使 用 训练 误差 最 大 的 样本 。 

。 使 用 的 样本 要 与 以 前 使 用 的 有 根本 区 别 。 

这 两 个 试探 方法 起 因 于 对 权 空 间 进 行 更 多 搜索 的 愿望 。 

在 模式 分 类 的 任务 中 使 用 串 行 反 向 传播 学 习 ， 经 常 使 用 的 一 个 简单 技巧 是 将 样本 的 每 个 回 
合 旦 现 给 多 层 感 知 器 的 顺序 随机 化 〈 即 弄 乱 ) 。 理 想 情 况 下 ， 随 机 化 可 以 确保 一 个 回合 中 的 相 
继 的 样本 很 少 属于 同一 类 。 

3. 激活 函数 。 在 考虑 学 习 速 度 的 情况 下 ， 较 好 的 选择 是 采用 关于 其 自 变量 为 奇 函 数 的 
sigmoid is pA, Bll 
g(— v) =— g(— v) 

如 下 的 双 曲 函数 是 满足 这 个 条 件 的 
glv) 一 atanh(bv) 
如 图 4. 10 BRAK, {AE logistic 函数 不 满足 这 个 条 件 。 在 p(v) 中 系统 规定 参数 a 和 2 的 合适 的 值 
是 (LeCun, 1989, 1993) 
a = 1.7159 
和 


-2 
b= 3 


图 4. 10 的 双 曲 正切 函数 有 如 下 有 用 的 性 质 : 
。 9(1)=1 和 gpg( 一 1) 二 一 1。 
。 在 原点 激活 函数 的 倾斜 度 〈 即 有 效 增 益 ) 接近 于 1， 如 下 所 示 : 


gp(0) =ab =1.715 9(3) =1. 1424 


g(v) 
a=1.7159 -一 











一 一 一 ------------- -a=-1.7159 


图 4.10 在 a=1.7159 Al b=2/3 时 的 双 曲 正切 函数 pg(v) 一 atanh(5v) 的 图 形 。 推 荐 的 目标 值 是 十 1 和 一 1 
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。 p) 的 二 阶 导 数 在 v= 二 1 时 达到 最 大 。 

4. 目标 值 。 在 sigmoid 激活 水 数 的 范围 内 选择 目标 值 ( 期 望 响应 ) 是 很 重要 的 。 更 具体 来 说 ， 
多 层 感 知 器 输出 层 的 神经 元 j 的 期 望 响应 d; 必须 与 sigmoid 激活 函数 的 极限 值 偏离 某 个 es 值 ， 具 体 
取决 于 极限 值 是 正 或 负 。 否 则 反 向 传播 算法 会 使 网 络 的 自由 参数 趋向 于 无 穷 大 ， 驱 使 隐藏 神 经 元 达 
到 饱和 从 而 减 慢 学 习 过 程 。 具 体 讲 ， 考 虑 图 4. 10 所 示 的 双 曲 正切 函数 。 对 于 极限 值 二 a， 我们 令 

d; 一 & 一 8 
对 于 有 限 值 一 a。， 我 们 令 

d; =—a +e 
这 里 e 是 一 个 合适 的 正常 数 。 对 图 4. 10 中 选择 的 a 二 1.715 9， 可 以 令 e 二 0.715 9， 这 样 ， 目 标 
(Ë d; 可 以 方便 地 选 为 十 1， 正 如 图 所 示 的 那样 。 ， 

5. 输入 的 标准 化 。 每 一 个 输入 变量 都 需要 预 处 理 ， 使 得 它 关 于 整个 训练 集 求 平 均 的 均值 
接近 0， 或 者 与 标准 偏差 相 比 是 比较 小 的 (LeCun，1993)。 为 评价 这 个 规则 的 实际 意义 ， 我 们 
考虑 输入 恒 正 的 极端 情况 。 在 这 种 情况 下 ， 第 一 隐藏 层 的 一 个 神经 元 的 所 有 突 触 权 值 只 能 同时 
增加 或 同时 减少 。 所 以 ， 如 果 这 个 神经 元 权 值 向 量 改 变 方 向 ， 则 它 的 误差 曲面 的 路 径 变 成 锯齿 
形 的 ， 这 会 使 收敛 速率 变 慢 ， 因 此 应 该 避免 。 

要 加 速 反 向 传播 学 习 的 过 程 ， 输 入 变量 的 标准 化 必须 包括 下 面 两 个 步骤 (LeCun，1993): 

。 训练 集 包含 的 输入 变量 应 该 是 不 相关 的 ;这 可 以 通过 第 8 章 提 到 的 主 分 量 分 析 法 来 做 到 。 

> 去 相关 后 的 输入 变量 应 调整 其 长 度 使 得 它们 的 协 方差 近似 相等 ， 因 此 可 以 保证 网 络 中 

的 不 同 突 触 权 值 以 大 约 相等 的 速度 进行 学 习 。 
图 4. 11 说 明 依 次 执行 三 个 标准 化 步骤 的 结果 : 消除 均值 、 去 相关 性 以 及 协 方差 均衡 。 
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数据 点 的 原始 集合 


xi" 

















图 4.11 二 维 输入 空间 的 消除 均值 、 去 相关 性 以 及 协 方差 均衡 运算 的 图 示 


另 一 个 有 趣 的 现象 是 当 通 过 图 4. 11 的 方式 对 输入 进行 变换 ， 并 将 之 和 图 4. 10 所 示 的 双 曲 
正切 函数 结合 起 来 时 ， 多 层 感知 器 中 各 个 神经 元 的 输出 的 方差 接近 于 1 COrr and Muller, 
1998)。 这 一 声明 的 基本 原理 在 于 在 有 用 范围 内 有 效 获得 的 sigmoid 函数 是 大 体 上 为 1 的 。 

6. 初始 化 。 网 络 的 突 触 权 值 和 阐 值 初 值 的 一 个 较 好 的 选择 对 一 个 成 功 的 网 络 设计 会 有 巨 
大 帮助 。 关 键 问题 是 : 什么 是 好 的 选择 ? 
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当 突 触 权 值 被 赋予 一 个 较 大 的 初始 值 时 ， 网 络 的 神经 元 很 可 能 会 趋 于 饱和 。 如 果 发 生 这 种 
情况 ， 反 向 传播 算法 中 的 局 域 梯度 呈现 出 一 个 很 小 的 值 ， 结 果 导 致 反 向 传播 学 习 过 程 很 缓慢 。 
然而 ， 如 果 突 触 权 值 被 赋予 一 个 较 小 的 初始 值 ， 反 向 传播 算法 可 能 就 在 误差 曲面 的 原点 的 一 个 
非常 平缓 的 区 域内 进行 ， 特 别 对 于 如 双 曲 正切 函数 这 样 的 sigmoid 函数 时 ， 这 种 可 能 性 就 更 
大 。 不 幸 的 是 ， 原 点 是 一 个 鞍点 ， 这 个 通 点 是 一 个 稳定 点 ， 在 该 点 处 与 蒂 正 交 的 误差 曲面 的 曲 
率 为 负 ， 而 沿 着 鞍 方 向 为 正 。 由 于 这 些 原因 ， 使 用 过 大 或 过 小 值 初始 化 突 触 权 值 都 应 该 名 免 。 
恰当 的 初始 化 选择 位 于 这 两 种 极端 之 间 。 

具体 地 说 ， 考 虑 将 -- 个 双 曲 正切 函数 作为 激活 函数 的 多 层 感知 器 。 设 网 络 的 每 一 个 神经 元 
的 偏 置 为 0。 我 们 将 神经 元 7 的 诱导 局 部 域 表示 为 


v 一 Diy 
假设 网 络 的 每 一 个 神经 元 的 输入 的 均值 为 0 方差 为 1， 表 示 为 
py = ELyij= 0 对 所 有 神经 元 i 
和 
a = EL Cy: — pi)? I= EL? 1= 1 对 所 有 神经 元 i 
进一步 ， 假 设 输 入 值 都 是 不 相关 的 ， 即 
1 对 &=:i 
ECyye1= |) aaa: 
并 且 设 突 触 权 值 的 值 是 以 均值 为 0 的 均匀 分 布 抽取 的 一 组 数 ， 即 
pw = Elw ]=0 MPA) 对 
和 方差 
a = EL (wy — pu) = Elw] 对 所 有 (71 对 
因此 可 以 将 诱导 局 部 域 w 的 均值 和 方差 表示 为 


p = Ely J= EL X wiy: ]= Dy Eles JEE I= 0 
和 
a, =EL (vw po)” |= EL#]=E[ > Dy wwayiye |= 2 2 EL ww JELyn I= 2 EL uh; |= moi, 


这 里 m 是 一 个 神经 元 的 突 触 连 接 的 数目 。 

根据 上 述 结果 ， 我 们 可 以 得 到 一 个 如 何 初 始 化 突 触 权 值 的 一 个 好 策略 ， 使 得 神经 元 诱导 局 
部 域 的 标准 偏差 位 于 它 的 sigmoid 激活 函数 的 线性 部 分 和 饱和 部 分 的 过 渡 区 域 。 例 如 ， 如 图 
4. 10 所 示 的 参数 a Mo 所 设 值 的 双 曲 正切 函数 ， 当 上 式 中 的 ,一 1 时 可 以 满足 这 个 目标 ， 这 样 
得 到 (LeCun, 1993): 





gw 一 mi? (4. 48) 
因此 ， 对 于 -一 个 均匀 分 布 ， 它 需要 其 均值 为 0 而 方差 将 与 神经 元 的 突 触 连接 的 数目 成 反比 ， 从 
而 以 这 个 分 布 来 选择 突 触 权 值 的 值 。 

7. 从 提示 中 学 习 。 从 一 组 未 知 的 训练 例子 中 学 习 意味 着 处 理 未 知 的 输入 一 输出 映射 函数 
f(:)。 事 实 上 ， 学 习 过 程 利用 函数 (OMT MASH BREMEN BLE. 从 例子 中 学 习 
的 过 程 可 以 推广 为 包括 从 提示 中 学 习 ， 这 可 以 通过 在 学 习 过 程 中 加 入 函数 fC) 的 先 验 知识 来 
实现 (Abu-Mostafa，1995)。 这 些 知识 包括 不 变性 、 对 称 性 或 关于 函数 了 (*) 的 其 他 知识 ， 它 
们 可 以 用 来 加 速 实现 f(*) 的 蛋 近 的 搜索 ， 而且 更 重要 的 是 , 会 提高 最 后 估计 的 质量 。 式 
(4. 48) 的 使 用 就 是 如 何 从 提示 中 学 习 的 例子 。 
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8. 学 习 率 。 多 层 感知 器 的 所 有 神经 元 理论 上 应 以 同一 速率 进行 学 习 。 网 络 最 后 一 层 的 局 
域 梯度 通常 比 别 的 层 大 。 因 此 ， 最 后 一 层 的 学 习 率 参数 ! 应 设 得 比 别 的 层 小 。 输 入 较 多 的 神经 
元 的 学 习 率 参数 应 比 输入 较 少 的 神经 元 小 。LeCun(1993) 中 提 到 ， 对 一 个 给 定 的 神经 元 ， 其 
学 习 率 应 与 该 神经 元 的 突 触 连接 的 平方 根 成 反比 。 


4.7 计算 机 实验 : 模式 分 类 


在 本 节 的 计算 机 实验 中 ， 我 们 回顾 模式 分 类 实验 的 序列 ， 首 先 在 第 1 章 中 利用 Rosenblatt 
感知 器 ， 然 后 在 第 2 章 中 利用 了 最 小 二 乘法 。 对 上 述 的 两 个 实验 ， 我 们 都 采用 图 1. 8 所 示 的 双 
月 结构 来 随机 产生 训练 和 测试 数据 样本 。 在 上 述 的 每 个 实验 中 ， 我 们 都 考虑 了 两 种 情形 ， 一 种 
是 线性 可 分 模式 ， 另 一 种 是 非 线性 可 分 模式 。 感 知 器 对 于 4 一 1 时 的 线性 可 分 情形 工作 得 非常 
好 ， 但 是 最 小 二 乘法 需要 在 两 个 月 亮 之 间 更 大 的 分 隔 度 以 便 得 到 好 的 分 类 。 在 两 个 方法 下 ， 他 
们 对 于 d= —4 的 非 线性 可 分 的 情形 都 失败 了 。 

这 里 的 计算 机 实验 的 目的 包括 两 方面 : 

1. 用 来 说 明 通 过 反 向 传播 算法 训练 的 多 层 感知 器 ， 能 够 分 类 非 线性 可 分 测试 数据 。 

2. 找到 更 困难 的 非 线性 可 分 的 情形 ， 这 时 候 多 层 感 知 器 对 于 双 月 分 类 测试 来 说 失败 了 。 

实验 中 使 用 的 多 层 感 知 器 的 具体 情况 如 下 所 示 : 


输入 层 大 小 : mo =2 
Katie (LAW) 大 小 : m =20 
输出 层 大 小 : ms 二 1 

_l—exp(— 2v) 
激活 函数 : 双 曲 正切 函数 p) xe 2v) 
HERA: 0 


学 习 率 参数 y: 从 10-! 下 降 到 10-* 的 线性 退火 

实验 分 为 两 部 分 ， 一 部 分 相应 于 垂直 可 分 的 d= 一 4， 另 一 部 分 相应 于 d= 一 5。 

(a) 垂直 分 隔 d 二 一 4 

图 4. 12 是 两 月 之 间 长 度 d 一 一 4 时 候 的 MLP 实验 的 结果 。 图 4. 12a 是 训练 阶段 所 产生 的 
学 习 曲 线 。 我 们 看 到 在 训练 了 大 约 15 个 回合 时 学 习 曲 线 有 效 收敛 。 图 4. 12b 显示 了 MLP 计算 
的 最 优 非 线性 决策 边界 。 更 重要 的 是 ， 实 现 了 这 两 种 模式 的 良好 分 类 ， 没 有 分 类 误差 。 这 一 完 


美 性 能 的 实现 应 归 因 于 MLP 的 隐藏 层 。 
学 习 曲 线 在 距离 =-4， 半 径 =10， 宽 =6 时 利用 MLP 分 类 


MSE 
o 
N 











0 10 20 30 40 50 
回合 次 数 xı 
a) 学 习 曲 线 b) 测试 结果 


图 4.12 距离 4 二 一 4 时 反 向 传播 算法 作用 于 MLP 的 计算 机 实验 结果 。MSE 是 指 均 方 误差 
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(b) #84 d=—5 
为 了 用 更 加 困难 的 模式 分 类 任务 来 挑战 多 层 感 知 器 ， 我 们 在 两 月 之 间 减 少 垂直 可 分 性 ， 令 
一 一 5。 实 验 第 二 部 分 的 结果 如 图 4. 13 所 示 。 反 向 传播 算法 的 学 习 曲 线 在 图 a 部 分 画 出 ， 说 

明了 较 慢 的 收敛 速度 ， 大 概 是 容易 情形 4 二 一 4 的 三 倍 左右 。 而 且 ， 在 图 b 部 分 所 给 出 的 测试 
结果 揭示 了 在 2 000 个 数据 点 组 成 的 测试 集中 有 三 个 分 类 错误 ， 表 示 了 0. 15% 的 误差 率 。 

决策 边界 是 道 过 寻找 属于 输入 向 量 x 的 坐标 < 和 zz 来 计算 的 ， 对 于 它 来 说 ， 在 实验 的 两 
个 类 是 等 可 能 的 假设 下 ， 输 出 神经 元 的 响应 是 0。 相 应 地 ， 当 超过 阔 值 0 时 ， 做 出 它 属 于 某 个 
类 的 决策 ; 反之 ， 给 出 决策 属于 另 一 个 类 。 这 一 过 程 在 本 书 中 报告 的 所 有 关于 双 月 分 类 实验 的 
报告 中 都 将 继续 。 

学 习 曲 线 在 距离 =-5， 半 径 =10， 宽 =6 时 利用 MLP 分 类 
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图 4.13 FRR 4 二 一 5 时 反 向 传播 算法 作用 于 MLP 的 计算 机 实验 结果 


4.8 上 反 向 传播 和 微分 


反 向 传播 是 用 于 在 多 层 前 馈 网 络 的 权 值 空间 中 实现 梯度 下 降 的 一 种 特殊 技巧 。 其 基本 思想 
是 有 效 计算 一 个 近似 函数 F(w,x) 的 偏 导 数 ， 对 于 给 
定 输入 向 量 x 的 值 近似 函数 FCw,x) 由 网 络 根 据 可 调 
整 权 值 向 量 w 的 所 有 元 素 实现 。 这 一 点 决定 了 反 向 传 
播 算法 的 计算 能 力 *。 

具体 来 说 ， 假 定 一 个 多 层 感知 器 有 一 个 mo 个 节 
点 的 输入 层 ， 两 个 隐藏 层 ， 以 及 一 个 单一 的 输出 神经 
元 ， 如 图 4.14 所 示 。 权 值 向 量 w 的 元 素 根据 层 数 
(从 第 一 个 隐藏 层 开 始 ) ， 然 后 根据 层 内 的 神经 元 














后 根据 神经 元 中 突 触 的 数目 来 排序 。 令 w 表示 从 神 wo 

经 元 i BRL 一 0,1,2,… 中 的 神经 元 j saline 图 4.14 pein 个 输出 层 
| in i 

对 于 /二 1， 对 应 于 第 一 个 隐藏 层 ， 序 号 i 表示 一 的 多 层 感知 器 


结 点 而 不 是 一 个 神经 元 ; 对 于 /二 3， 对 应 于 图 y 

的 输出 层 ， 我 们 有 j 二 1。 对 于 一 个 特定 的 输入 向 量 x = [zz，…zw] ， 我 们 希望 计算 函数 
F(w,x) 对 向 量 w 的 所 有 元 素 的 导数 值 。 将 权 值 向 量 w 作为 函数 下 的 变量 ， 并 将 注意 力 放 在 其 
上 。 例 如 ， 对 于 /= 一 2( 即 一 个 单一 隐藏 层 和 一 个 线性 输出 层 ) ， 我 们 有 : 


96 .第 4 章 多 层 感知 器 


F(w,x) = >) wie ( >) nz (4. 49) 
其 中 w 是 排序 后 的 权 值 向 量 ，x 是 输入 向 量 。 
图 4. 14 的 多 层 感知 器 被 结构 (表示 一 个 离散 参数 ) 和 一 个 权 值 向 量 w( 由 连续 的 元 素 组 
R) BRL. Soll? 表示 从 输入 层 U=0) 到 层 != 1,2,3 内 的 节点 7 所 扩展 成 的 部 分 结构 。 因 
此 ， 我 们 可 以 写成 : 
F(w,x) = ofS?) (4. 50) 
这 里 p EARS. RM, A” 仅仅 被 认为 是 一 个 结构 符号 而 不 是 一 个 变量 ， 因 此 ， 改 写 式 
(4.2)、 式 (4.4)、 式 (4.13) 和 式 (4. 25) 使 之 在 这 种 情况 下 可 用 ， 得 到 如 下 结果 : 


ee = g (A ost ) (4.51) 

lk 

Sa = g (A ol (AP pA Dw? (4. 52) 
kj 

E = p (AP p GLCD why CA wf? J (4. 53) 
ji k 


这 里 w 是 非 线 性 g 关于 其 输入 的 人 篇 导数 ，z; 是 输入 向 量 z 的 第 i 个 元 素 。 用 相似 的 方法 可 以 得 
到 一 般 的 具有 更 多 的 隐藏 层 和 在 输出 层 上 有 更 多 神经 元 的 网 络 的 偏 导 等 式 。 l 

对 于 计算 网 络 函 数 FCw,x) 关 于 权 值 向 量 w 的 元 素 变化 的 灵敏 度 ， 式 (4. 51) 至 式 (4. 53) 提 
供 了 基础 。 令 w 表示 权 值 向 量 w 的 元 素 ，F(w,x) 关 于 o 的 灵敏 度 定义 为 


SF 一 oF/F 
me dw/w 
由 于 这 个 原因 我 们 把 图 4. 7 中 信和 号 流 图 的 较 低 部 分 称 为 “灵敏 度 图 ”。 


Jacobi 矩阵 

令 克 表示 一 个 多 层 感 知 器 自由 参数 〈 即 突 触 权 值 和 偏 置 ) 的 总 数 ， 参 数 按 形成 权 值 向 量 
w 的 方式 排序 。 令 N 表示 用 于 训练 网 络 的 样本 总 数 。 对 于 训练 集中 的 给 定 样本 xan), AAE 
向 传播 可 以 计算 近似 函数 FLw,x(n)] 对 权 值 向 量 w 元 素 的 偏 导数 。 对 于 nn = 1,2,…,NN 重复 上 
Wie, 最 后 得 到 一 个 NXW 的 偏 导数 矩阵 。 这 个 矩阵 被 称 为 多 层 感知 器 的 在 x(n) 处 的 Jaco- 
bi A J. Jacobi 矩阵 每 列 对 应 于 训练 集中 的 一 个 样本 。 

实验 证 据 显示 许多 神经 网 络 训练 问题 是 内 在 “ 坏 条 件 的 ”(ill conditioned) ， 导 致 Jacobi #i 
EE J JL AER SY (Saarinen 等 ，1991)。 和 矩阵 的 秩 是 矩阵 的 列 或 行 的 线性 无 关 组 的 数目 
中 最 小 的 一 个 。 假 如 秩 小 于 minCN，W)， 我 们 说 Jacobi PE J EGIA. Æ Jacobi 矩阵 中 
任何 的 秩 亏 损 导 致 反 向 传播 算法 仅仅 得 到 可 能 搜寻 方向 上 的 部 分 信息 ， 从 而 导致 训练 时 间 
过 长 。 


4.9 Hessian 矩阵 及 其 在 在 线 学 习 中 的 规则 


{Rt PARLE. Cw) iY Hessian 和 矩阵 用 了 表示， 定义 为 多,(w) 对 权 值 向 量 w 的 二 阶 导 数 ， 显 

示 为 
Ə Sa Cw) 
H= oo (4. 54) 

Hessian 矩阵 在 研究 神经 网 络 中 起 着 重要 作用 ; 尤其 要 提出 以 下 几 点 ”: 

1. Hessian 和 矩阵 的 特征 值 对 反 向 传播 学 习 动 力学 有 着 深远 的 影响 ; 

2. Hessian 矩阵 的 逆 为 从 一 个 多 层 感 知 器 中 修剪 〈 即 删除 ) 不 重要 的 突 触 权 值 提供 基础 ， 
这 一 问题 将 在 4. 14 节 中 讨论 ; 
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3. Hessian 矩阵 是 形成 二 阶 优化 方法 的 基础 ， 二 阶 优化 方法 可 作为 反 向 传播 学 习 的 替代 ， 
这 将 在 4. 16 Witte. 

本 节 将 注意 力 放 在 第 1 点 。 

第 3 章 说 明了 Hessian 矩阵 的 特征 结构 对 LMS 算法 的 收敛 性 质 有 重大 影响 。 它 对 反 向 传 
播 算 法 也 一 样 ， 但 是 更 为 复杂 。 一 般 情况 下 ， 用 反 向 传播 算法 来 训练 的 多 层 感 知 器 ， 其 误差 曲 
面 的 Hessian 矩阵 有 如 下 的 特征 值 组 合 (LeCun 等 ，1998) : 

。 小 特征 值 的 数目 较 少 。 

。 中 等 大 小 的 特征 值 的 数目 很 多 。 

。 大 特征 值 的 数目 较 少 。 

因此 Hessian 和 矩阵 的 特征 值 伸 展 范围 较 广 。 

影响 特征 值 组 合 的 因素 可 分 组 如 下 : 

。 非 零 均值 的 输入 信号 或 非 零 均值 的 神经 元 诱导 输出 信号 。 

。 输入 信号 向 量 的 元 素 之 间 的 相关 性 和 神经 元 诱导 输出 信号 之 间 的 相关 性 。 

。 代价 函数 对 于 网 络 中 神经 元 突 触 权 值 的 二 阶 导数 随 着 从 一 层 到 下 一 层 进行 处 理 有 很 宽 

的 变化 范围 。 在 较 低 的 层 中 二 阶 导数 通常 更 小 ， 这 样 突 触 权 值 在 第 一 隐藏 层 的 学 习 很 
慢 ， 但 在 后 面 的 层 就 学 习 较 快 。 

避免 非 0 均值 输入 

回顾 一 下 第 3 BE, 我 们 讲 过 LMS 算法 的 学 习 时 间 对 条 件数 Am /hin 的 变化 很 灵敏 ， 这 里 
Amo E Hessian 矩阵 最 大 的 特征 值 ， 而 Xs 是 Hessian 矩阵 最 小 的 非 0 特征 值 。 实 验 结果 显示 反 
向 传播 算法 有 着 相似 的 结果 ， 反 向 传播 算法 是 LMS 算法 的 一 个 推广 。 对 于 非 零 均值 的 输入 ， 
它 的 比值 Amex /Xs 比 相 应 的 零 均 值 输入 的 比值 要 大 : 输入 的 均值 越 大 ， 比 值 Ane /Amin BEA. X 
个 结果 对 反 向 传播 学 习 动 力学 有 着 重要 意义 。 

为 了 使 学 习 时 间 最 小 化 ， 应 避免 使 用 非 零 均值 的 输入 。 现 在 ， 考 虑 将 单个 向 量 x 应 用 于 
一 个 多 层 感 知 器 的 第 一 隐藏 层 的 神经 元 这 种 情况 ，x 应 用 于 网 络 之 前 先 对 它 的 每 个 元 素 减 去 
平均 值 是 很 容易 的 。 但 是 将 信和 号 应 用 到 剩 下 的 隐藏 层 和 输出 居中 的 神经 元 情况 又 会 如 何 呢 ? 
这 个 问题 的 答案 在 于 网 络 中 使 用 的 激活 函数 的 类 型 。 在 采用 logistic 函数 的 情形 下 ， 每 个 神 
经 元 的 输出 界 于 [0,1] 区 间 。 这 样 的 选择 为 那些 位 于 网 络 中 第 一 隐藏 层 之 后 的 神经 元 带 来 
了 一 个 系统 偏差 源 。 为 了 克服 这 一 问题 ,我 们 需要 利用 一 个 如 同 双 曲 正 切 函 数 的 奇 对 称 应 
数 。 对 于 后 一 种 选择 ， 每 个 神经 元 的 输出 可 以 是 区 间 [一 1,1] 中 的 任何 正 值 和 负 值 ， 在 这 
种 情况 下 ， 它 的 均值 可 能 为 0。 假 如 网 络 连 接 数 很 大 ， 用 奇 对 称 激活 函数 的 反 向 传播 学 习 可 
能 比 一 个 使 用 非 对 称 激活 函数 的 相似 过 程 有 着 更 快 的 收敛 。 这 为 4. 6 节 描 述 的 启发 3 提供 了 
合理 性 依据 。 
在 线 学 习 的 渐进 行为 

为 了 更 好 地 理解 在 线 学 习 ， 我 们 需要 知道 总 体 -平均 学 习 曲 线 是 如 何 随 着 时 间 演 化 的 。 和 
LMS 算法 不 同 ， 很 遗憾 这 样 的 计算 是 很 难 实现 的 。 一 般 来 说 ， 因 为 网 络 的 对 称 性 误差 性 能 曲 
面 可 能 有 以 指数 方式 存在 的 多 个 局 部 最 小 点 和 若干 全 局 最 小 点 。 令 人 惊讶 的 是 ， 误差 性 能 曲面 
的 这 一 特性 可 能 反 过 来 从 以 下 意义 上 说 是 有 用 的 特征 : 假设 在 网 络 训练 中 采用 了 早期 停止 方法 
(参照 4. 13 节 ) 或 者 网 络 是 正则 的 (参照 4. 14 节 ) ， 我 们 几乎 总 是 发 现 我 们 “靠近 了 ” 局 部 最 
小 点 。 

在 很 多 情况 下 ， 由 于 误差 性 能 曲面 的 复杂 性， 我 们 从 文献 中 发 现 ， 学 习 曲 线 的 统计 分 析 限 
定 在 局 部 最 小 点 邻 域 的 渐进 行为 上 。 这 里 重点 介绍 这 一 渐进 行为 的 几 个 重要 方面 如 下 ， 假设 学 
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习 率 参数 是 固定 的 : 

D 学 习 曲 线 包 含 三 项 ， 

。 最 小 损失 ， 由 最 优 参数 w "决定 ， 它 属于 局 部 或 全 局 最 小 点 。 

。 附加 损失 ， 由 权 值 向 量 估 计 w(n) 在 均值 附近 的 波动 引起 : 

lim ELW(n) J = w" 

。 FARATA, HRA A HE RE HITR EW ERY 

(2) 为 了 保证 在 线 学 习 算 法 的 稳定 性 ， 学 习 率 参数 7 必须 被 赋予 一 个 小 于 Hessian 矩阵 最 
大 特征 值 倒数 1/Mes 的 值 。 另 一 方面 ， 算 法 的 收敛 速度 是 由 Hessian 矩阵 的 最 小 特征 值 Amin Æ 
支配 的 。 

(3) 粗略 地 说 ， 如 果 学 习 率 参数 1 被 赋予 一 个 大 的 值 ， 收 敛 速度 是 快 的 ， 但 是 在 局 部 或 者 
全 局 最 小 点 附近 会 有 大 的 波动 ， 甚 至 和 迭代 次 数 n 趋 于 无 穷 大 时 也 是 如 此 。 相 反 ， 如 果 wy 赋予 小 
的 值 ， 波 动 程度 会 变 小 ， 但 收敛 速度 也 会 变 慢 。 


4.10 学习 率 的 最 优 退 火 和 自 适应 控制 


在 4.2 节 中 ,我们 强调 了 在 线 学 习 的 流行 有 两 个 原因 : 

(lL) 算法 简单 ， 其 执行 只 需要 极 少 量 的 存储 ， 存 储量 仅仅 用 来 存放 从 一 次 迭代 到 下 一 次 选 
代 估 计 权 值 向 量 的 旧 值 。 

(2) 在 每 一 个 时 间 步 每 一 个 样本 xd) 仅仅 使 用 一 次 ， 在 线 学 习 的 学 习 率 比 批量 学 习 的 
学 习 率 有 着 更 加 重要 的 作用 ， 因 为 在 线 学 习 算法 具有 志 踪 用 来 产生 训练 集 样本 的 环境 的 统计 变 
化 的 内 在 能 力 。 

Amari(1967) 和 最 近 的 Opper(1996) 中 证 明了 具有 最 优 退 火 的 在 线 学 习 能 够 在 渐进 意义 
下 和 批量 学 习 运 行 得 一 样 快 。 下 面 的 内 容 探 讨 了 这 一 问题 。 
学 习 率 的 最 优 退 火 

令 w 记 为 网 络 的 突 触 权 值 向 量 ， 在 某 种 排序 方式 下 堆 芭 。W(n) 记 为 权 值 向 量 w 在 时 间 步 
n 的 老 的 估计 ， 令 痉 (n 十 1) 记 为 在 接收 到 “输入 -期 望 ” 样 本 {x(n 十 1),d(n 十 1)} 后 w 的 更 新 估 
计 。 相 应 地 ， 令 F(x(n 十 1) ;次 (n)) 记 为 网 络 对 于 输入 x(n 十 1) 所 产生 的 向 量 值 输出 ; 自然 地 ， 
函数 的 维 数 必须 与 期 望 响应 向 量 dC(n) 相 同 。 根 据 式 (4. 3) 的 定义 公式 ， 可 以 将 瞬时 能 量 表示 
为 估计 误差 的 平方 欧 几 里 得 范 数 ， 如 下 式 所 示 : 


(x(n) d(n) 3) = 4 Han) — FOG) sw) l? (4. 55) 
在 线 学 习 问 题 的 均 方 误差 或 期 望 风 险 定义 为 : 
JOW) = Ea[eCx,diw)] (4. 56) 
其 中 下 ,是 作用 于 样本 {x,d) 上 的 期 望 算 子 。 解 
w" = arg min[ J (w)] (4. 57) 
定义 了 最 优 参 数 向 量 。 
学 习 过 程 的 瞬时 梯度 向 量 定义 为 : 


g(x(n) dln); w) = 2 x(n) dn) sw) =— (d(n) — F(x(n) ;w) F (x(n) sw) (4.58) 


其 中 
F’(x;w) = -9_FCxiw) (4. 59) 
Ow 


有 了 刚刚 定义 的 梯度 向 量 ， 现 在 可 以 将 在 线 学 习 算 法 表示 为 ， 
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ein +D = Wn) yngxnt+1) ,dnt+1) ;Wn)) (4. 60) 
或 者 等 价 地 ， 
watl = Won) 十 yon) [dm + D — Fn + 1) ;Wn)) F aln t DiW(n)) (4. 61) 
更 新 估计 a4 学 习 率 误差 信号 网 络 函 数 了 的 篇 导数 


i 参数 
”有 了 这 个 差分 方程 ， 我 们 可 以 继续 通过 如 下 的 连续 微分 方程 来 描述 权 值 向 量 w 在 最 优 参数 
w 的 邻 域 的 总 体 - 平 均 动力 学 : 


SH) 一 一 TD OR TORONA (4. 62) 
其 中 上 表示 连续 时 间 。 根 据 Murata(1998) ， 梯 度 向 量 的 期 望 值 通过 下 式 来 近似 : 
Exal g(x,d;W(2)) ] =— K* (w* — Wi)) (4. 63) 
其 中 总 体 平 均 矩 阵 K’ 定义 为 : 
， ə w | = Eal 2- ; 
K' = Eve 2 g(x.diw) | = B 2 Ex dsw) | (4. 64) 


新 的 Hessian 矩阵 K* 是 一 个 正定 矩阵 ， 和 式 (4. 54) 定 义 的 Hessian 和 矩阵 H 是 不 同 的 。 然 而 ， 
如 果 产 生 训 练 样本 (xd) 的 环境 是 遍历 的 ， 则 可 以 用 基于 时 间 平 均 的 Hessian 矩阵 HH 来 替代 
基于 总 体 平均 的 Hessian 矩阵 K" 。 在 任何 情况 下 ， 将 式 (4. 63) 代 入 式 (4. 62) ， 我 们 发 现 描述 
估计 闽 (2) 演 化 的 连续 微分 方程 可 以 通过 下 式 瘟 近 : 


EHD ~ ADK" OW? — WED) (4. 65) 
令 向 量 q 表示 了 "和 矩阵 的 特征 向 量 ， 如 下 面 的 定义 公式 所 示 : 
K’q = Aq (4. 66) 
其 中 是 对 应 于 特征 向 量 q 的 特征 值 。 则 可 以 引入 新 的 函数 
EG) 一 Ealag a(x, ds Wz) | (4. 67) 
由 式 (4. 63)， 这 可 以 近似 表示 为 
g(t) ~ q™K* (wt — RO) =— ag? Cw" — WO) (4, 68) 


在 每 一 个 瞬时 1， 函数 E(t) 为 一 个 标量 值 ， 这 可 以 看 成 是 两 个 于 特征 向 量 q 上 的 投影 之 间 的 欧 
几 里 得 距离 的 近似 测量 ， 一 个 是 最 优 参 数 w" ， 另 一 个 是 估计 疹 (t)。 当 估计 多 (#) 收 合 到 w* 时 ， 
EDERA 0. l 

由 式 (4.65)、 式 (4. 66) 和 式 (4. 68)， 我 们 发 现 函 数 7(z) 与 随时 间 变 化 的 学 习 率 参数 7 
AX: 


d _ 
a? =— Ane (4, 69) 
解 该 微分 方程 产生 : 
EG) = c exp(— afgod) (4. 70) 
其 中 c 是 正 的 积分 常数 。 


根据 Darken and Moody(1991) 的 退火 方案 ， 这 已 经 在 第 3 章 中 关于 LMS 算法 时 讨论 过 
了 ， 令 公式 


10D =; qz (4. 71) 


说 明 学 习 率 对 时 间 上 的 依赖 性 ， 其 中 r 和 加 为 正 的 调谐 参数 。 然 后 ， 将 这 一 公式 代 人 式 
(4.70) ， 我 们 发 现 相 应 的 EO RAA : 
EG) = c H r) (4.72) 
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为 了 使 当时 间 t 欧 于 无 穷 时 &(z) 成 为 0， 指 数 部 分 的 乘积 项 Acyo 必 须 大 于 1， 这 可 以 通过 对 正 的 
a 令 Ho 二 a/4 来 满足 。 

现在 ， 仅 剩 的 问题 是 如 何 选取 特征 向 量 q。 前 一 节 讲 过 ， 学 习 曲 线 的 收敛 速度 由 Hessian #8 H 
的 最 小 特征 值 ku 支配 。 由 于 Hessian 矩阵 和 新 的 Hessian 和 矩阵 H" 倾向 于 相似 的 行为 ， 一 个 聪明 的 
OPER FFE AKER, THT SEW) FN Bl 上 的 演化 可 以 考虑 为 一 维 过 程 ， 对 于 和 最 小 
特征 值 Mu 相关 联 的 Hessian 矩阵 K* “几乎 平行 ”地 运行 ， 如 图 4. 15 所 示 。 因 此 可 以 令 : 





— Eal g(x,d;W) | 
dT TT halga d; w] (4. 73) 
其 中 引入 了 正规 化 来 假设 特征 向 量 q 为 单位 欧 几 里 得 长 度 。 相 应 地 ， 式 (4. 67) 的 运用 产生 了 
EW = || Exa[g(x,d;W(z)) J || (4. 74) 


现在 可 以 把 本 节 讨 论 过 的 结果 总 结 如 下 : 
L 由 式 (4.71) 所 描述 的 退火 方案 的 选择 满足 两 个 条 件 : 
Sg > co 和 Sy?) > o, Yt +o (4. 75) 


换 句 话说 ，wm(z) 满 足 随机 逼近 理论 (Robbins and Monro, 1951) 的 需要 。 
2. ÆRE AFER, KA &( 四 渐进 地 趋 于 0。 相 应 于 式 (4. 68) ， 紧 接着 有 上 趋 于 无 穷 
ATRIA Wd) FRR w. 
3. ER BKB MERKEAZIS. ITEN BOE ALOE FAB) EAL Amin 
相关 联 的 Hessian 矩阵 K* 的 特征 向 量 。 
4. 由 权重 向 量 ww 刻画 的 网 络 的 最 优 退 火 在 线 学 习 算 法 可 以 通过 下 面 的 三 个 公式 来 共同 描述 
Win 十 1) 一 W(n) + yin) (d(n+ 1) — FO) 十 1;W(n)) Fa@+) ;W(n)) 





更 新 估计 老 的 FAR 误差 信号 网 络 函 数 F 的 偏 导数 
估计 参数 
Nswitch | (4. 76) 
nin) N F Newitch To 
p 一 过 > ae ERR 





这 里 ， 假 设 产生 训练 样本 {x,d) 的 相应 的 环境 是 遍历 的 ， 因 此 假设 总 体 平均 Hessian 矩阵 K* 
和 时 间 平 均 Hessian 矩阵 H 同样 的 值 。 

5. 当 基 于 随机 梯度 下 降 的 在 线 学 习 中 的 学 习 率 参数 p 固定 时 ,算法 的 稳定 性 需要 我 们 选 
FE 加 二 1/4mx， 其 中 hwsx 是 Hessian 矩阵 HH 的 最 大 特征 值 ， 在 最 优 退 火 随 机 梯度 下 降 的 情形 下 ， 
相应 于 式 (4. 76) 的 第 三 行 ， 选 择 是 %% 二 1/4wms， 其 中 hws 是 H 的 最 小 特征 值 。 

6. 时 间 常 数 mwim 是 一 个 正 整数 ， 定 义 了 从 国定 的 加 状态 转换 为 退火 状态 ， 其 中 时 间 变 化 
学 习 率 参数 y(n) BRABBBR c/n, Kc 是 常数 ， 对 应 于 随机 荧 近 理论 。 


Wr) BER 


图 4.15 估计 外 (#2) 在 时 间 : 上 的 演化 。 椭 圆 表示 对 于 w 的 变化 值 的 期 望 风险 的 轮廓 ， 假 设 为 二 维 的 
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学 习 率 的 自 适应 控制 

式 (4.76) 的 第 二 行 所 描述 的 最 优 退 火 方案 提供 了 在 线 学 习 ， 为 促进 在 线 学 习 的 应 用 迈 出 了 
重要 一 步 。 然 而 ， 这 一 退火 方案 的 实际 局 限 在 于 需要 知道 的 时 间 常 量 goin DW. SRB 
实际 问题 ， 事 实 上 ， 当 在 不 稳定 的 环境 中 建立 在 线 学 习 感 兴趣 的 应 用 时 ， 训 练 序列 的 统计 性 质 
从 一 个 样 例 到 下 一 个 样 例会 发 生 改 变 ， 利用 一 个 预先 给 定 的 时 间 常 量 nw 可 能 不 再 是 一 个 现 
实 的 选择 。 这 一 类 情形 在 实际 中 经 常 发 生 ， 因 而 在 线 学 习 算法 需要 装备 内 在 机 制 用 于 学 习 率 的 
自 适 应 控制 。 这 样 的 机 制 在 文献 中 由 Murata(1998) 首次 提出 ， 那 里 对 称 为 学 习 算 法 的 学 习 
(Sompolinsky 等 ，1995) 作 了 适当 修正 。 

Murata 的 自 适应 算法 被 配置 来 达到 两 个 目的 : 

1. 自动 调整 学 习 率 ， 用 来 处 理 产 生 训 练 序列 样 例 的 环境 的 统计 特性 有 变化 的 情形 。 

2. 在 线 学 习 算 法 的 泛 化 ， 通 过 避免 预定 义 代价 函数 的 需要 使 其 适用 性 更 广 。 

具体 来 说 ， 由 式 (4. 62) 定 义 的 权 值 向 量 v 的 总 体 -平均 动力 学 ,现在 可 以 写 为 " 


Ct) =— He) Bra ECR) 1) HOD] (4.77) 


这 里 向 量 值 函 数 SJC, O BMT REEAFAHWO 相应 于 进入 样 例 {x(z) ,dlt)} 上 的 变化 
的 流程 (flow)。 流 程 f 需 要 满足 条 件 
: Exa[f(x,d;w*)] = 0 (4. 78) 
其 中 w 是 权 值 向 量 w 的 最 优 值 ， 如 前 面 式 (4. 57) 所 定义 。 换 句 话说 ， 流 程 f 必须 渐进 地 收敛 
于 通过 时 间 上 的 最 优 参数 w" 。 而 且 ， 在 稳定 性 方面 ， 我 们 也 需要 f 的 梯度 为 正定 矩阵 。 流 程 f 
包含 了 式 (4. 62) 的 梯度 向 量 g 作为 一 个 特例 。 
前 面 从 式 (4. 63) 到 式 (4. 69) 所 定义 的 公式 可 以 很 好 地 等 价 应 用 于 Murata 的 算法 中 。 然 而 
在 此 之 后 ， 所 做 的 假设 是 学 习 率 w(z) 通 过 时 间 z 的 演化 由 如 下 的 一 对 微分 方程 构成 的 动力 系统 
所 决定 : 


fect) =— An EQ) (4. 79) 


和 
LIO = ant) (BEC) — 62D) (4, 80) 


这 里 需要 注意 的 是 ，&(2) 总 是 正 的 ,a 和 8B 是 正 的 常数 。 这 一 动态 系统 的 第 一 个 方程 是 式 
(4. 69) 的 重复 。 系 统 的 第 二 个 方程 是 受 相 应 的 微分 方程 启发 得 到 的 ， 该 微分 方程 位 于 对 Som 
polinsky 4 (1995y 所 描述 的 学 习 算 法 的 学 习 中 。 

如 前 所 述 ， 式 (4. 79) PAO A 是 相应 于 Hessian 矩阵 K 的 特征 向 量 q 的 特征 值 。 而 且 ， 假 
BE q 被 选择 为 对 应 于 最 小 特征 值 lu 的 特定 的 特征 向 量 。 这 就 意味 着 总 体 -平均 流程 以 和 前 面 
如 图 4. 15 所 描述 的 相似 的 方式 收敛 于 最 优 参数 w* 。 式 (4. 79) 和 式 (4. 80) 所 描述 的 动态 系统 的 
渐进 行为 通过 相应 的 方程 对 给 出 ， 

1 
(~-=)4. a>a (4. 81) 
和 
gt) = =A (4. 82) 


这 里 需要 注意 的 要 点 是 这 一 新 的 动态 系统 展示 了 学 习 率 y(t) 的 期 望 退火 ， 即 当 t 很 大 时 的 ct 
的 值 ， 这 对 于 任意 收 化 于 w 的 估计 (z) 是 最 优 的 ， 如 前 所 讨论 的 那样 。 
根据 上 面 的 讨论 ， 现 在 可 以 正式 地 描述 离散 时 间 下 在 线 学 习 的 Murata 自 适应 算法 如 下 
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(Murata, 1998; Muller #, 1998); 


Win+1) = Win) 一 ain fxn + 1),d(n+ 1) ;Wn)) (4. 83) 
rnt1)= rn)+ofCxnt+1),dni lwn)), 0<8<1 (4. 84) 
int 1) = yn) + ag cn (Bl rn + 1) | 一 7 ) (4. 85) 


以 下 是 这 一 离散 时 间 系 统 方程 中 值得 注意 的 点 : 
。 R. 83) 是 简单 的 式 (4. 77) 的 微分 方程 的 瞬时 离散 时 间 版 本 。 
。 式 (4. 84) 包 含 了 辅助 向 量 r(n)， 这 是 被 引入 来 说 明 连 续 时 间 函 数 &oo 。 而 且 ，Murata 
自 适 应 算法 的 第 二 个 方程 包含 一 个 漏 损 因子 (leakage factor)， 其 值 6 控 制 了 流程 f 的 
流动 平均 。 

。 R. 85) 是 微分 方程 (4. 80) 的 离散 时 间 版 本 。 式 (4. 85) 中 更 新 的 辅助 向 量 r(2 十 1) 将 

它 和 式 (4. 84) 联 系 起 来 ; 在 这 样 做 的 过 程 中 ， 人 允许 将 式 (4. 79) 和 式 (4. 80) 分 别 定 义 的 
连续 时 间 函 数 EO A pW OBA. 

与 式 (4. 79) 和 式 (4. 80) 描 述 的 连续 时 间 动 力 系统 不 同 ， 式 (4. 85) 的 学 习 率 参数 wz) 的 渐进 
行为 在 迭代 次 数 ” 趋 于 无 穷 时 不 收 伍 于 0， 因 此 违反 了 最 优 退 火 的 需要 。 相 应 地 ， 在 最 优 退火 
参数 w 的 邻 域 中 ， 我 们 发 现 对 于 Murata 自 适 应 算法 有 : 

lim W(n) # w" (4. 86) 
这 一 渐进 行为 和 式 (4. 76) 的 最 优 退 火 在 线 学 习 算 法 是 不 同 的 。 基 本 上 ， 对 于 最 优 退 火 的 背离 是 
归 因 于 式 (4.77) 中 流程 的 流出 平均 的 应 用 ， 包 含 了 这 一 应 用 是 由 于 需要 处 理 算法 无 法 预先 定义 
代价 函数 的 情形 ， 正 如 导出 最 优 退 火 在 线 学 习 算法 式 (4.76) 的 情形 。 

当 最 优 解 W* 随时 间 n 缓慢 变化 时 〈 即 产生 样 例 的 环境 是 不 稳定 的 ) 或 者 突然 改变 时 ， 学 
习 规 则 的 学 习 是 有 用 的 。 另 一 方面 ，1/n 规则 在 这 样 的 环境 下 不 是 一 个 好 的 选择 ， 因 为 p 对 于 
很 大 的 n 来 说 变 得 很 小 ， 导 致 1/n 规则 失去 其 学 习 能 力 。 基 本 上 ， 式 (4. 76) 的 最 优 退 火 在 线 学 
习 算 法 和 式 (4. 83) 到 式 (4. 85) 的 在 线 学 习 算 法 之 间 的 不 同 是 ， 后 者 有 一 个 内 在 的 机 制 用 于 自 适 
应 地 控制 学 习 率 一 一 因而 它 能 够 追踪 最 优 解 多 "的 变化 。 

最 后 的 评论 是 : 尽管 Murata 自 适应 算法 在 所 考虑 的 学 习 率 参数 的 退火 范围 内 实际 上 是 次 
优 的 ， 其 重要 的 优点 在 于 扩大 了 在 线 学 习 在 实际 执行 方式 上 的 适用 性 。 


4.11 泛 化 


在 反 向 传播 学 习 中 ， 我 们 一 般 从 一 个 训练 样本 开始 ， 而 且 通 过 向 网 络 中 装载 〈 编 码 ) 尽 可 
能 多 的 训练 样本 来 使 用 反 向 传播 算法 计算 一 个 多 层 感知 器 的 突 触 权 值 。 希 望 这 样 设计 的 神经 网 
络 可 以 很 好 地 泛 化 〈 推 广 )。 对 于 从 未 在 生成 或 训练 网 络 时 使 用 过 的 测试 数据 ， 若 网 络 计算 的 
输入 -输出 映射 对 它们 来 说 是 正确 〈 或 接近 于 正确 ) 的 ， 我 们 就 认为 网 络 的 泛 化 是 很 好 的 ; R 
语 “ 泛 化 ”是 从 心理 学 中 借用 来 的 。 这 里 假定 测试 数据 是 从 用 于 生成 训练 数据 的 相同 数据 集 抽 
取出 来 的 。 

学 习 过 程 〈 即 神经 网 络 的 训练 ) 可 以 看 作 是 一 个 “曲线 拟 合 ” 的 问题 。 网 络 本 身 可 以 被 简 
单 地 认为 是 一 个 非 线性 输入 -输出 映射 。 这 个 观点 允许 我 们 不 再 把 神经 网 络 的 泛 化 看 作 是 它 的 
一 个 神秘 的 特性 ， 而 是 作为 相当 简单 的 关于 输入 数据 非 线性 插值 的 结果 。 这 种 网 络 之 所 以 能 够 
完成 有 意义 的 播 值 过 程 ， 主 要 是 因为 具有 连续 激活 函数 的 多 层 感知 器 导致 输出 函数 同样 也 是 连 
续 的 。 

图 4. 16a 表明 一 个 假定 的 网 络 是 如 何 进行 泛 化 的 。 图 中 描绘 的 曲线 所 代表 的 非 线性 输入 / 
输出 映射 是 由 网 络 通过 对 标 有 “训练 数据 ”的 点 进行 学 习 的 结果 来 计算 的 。 曲 线 上 标 有 “ 泛 
化 ”的 点 就 是 由 这 个 网 络 完成 的 插值 结果 。 
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图 4.16 a) 良好 泛 化 的 恰当 拟 合 非 线性 映射 ，b) 差 的 泛 化 的 过 拟 合 非 线 性 映射 


一 个 具有 和 良好 泛 化 能 力 的 神经 网 络 ， 即 使 当 输 入 数据 与 训练 样本 稍 有 不 同时 ， 也 能 产生 正 
确 的 输入 -输出 映射 ， 如 图 中 所 示 。 然 而 ， 当 神经 网 络 学 习 太 多 的 输入 -输出 样本 时 ， 它 可 能 会 
完成 训练 数据 的 记忆 。 这 可 能 在 以 下 和 情况 中 出 现 ， 找 到 一 个 存在 于 训练 数据 中 的 特征 (如 由 于 
噪声 )， 但 对 于 将 要 建 模 的 固有 洱 数 却 为 假 。 这 种 现象 称 为 “过 拟 合 ”或 者 “过 训练 "?。 当 网 络 
被 过 训练 的 时 候 ， 它 就 失去 了 在 相近 输入 /输出 模式 之 间 进 行 泛 化 的 能 力 。 

通常 ， 用 这 种 方法 把 数据 装载 到 多 层 感知 器 要 求 使 用 比 实际 需要 更 多 的 隐藏 层 神 经 元 ， 结 
果 导 致 在 网 络 的 突 触 权 值 中 存储 了 输入 空间 中 由 于 噪声 引起 的 非 期 望 因 素 。 例 如 ， 在 图 4. 16a 
相同 的 数据 条 件 下 ， 图 4. 16b 显示 由 于 神经 网 络 中 的 记忆 导致 泛 化 不 佳 是 如 何 出 现 的 例子 。 
“记忆 ”本 质 上 是 一 个 “查询 表 ”， 这 意味 着 由 神经 网 络 计算 的 输入 /输出 映射 是 非 光 滑 的 。 正 
如 在 Poggio and Girosi(1990a) 文章 中 指出 的 那样 ， 输 入 /输出 映射 的 光滑 性 与 如 Occam 剃刀 
之 类 的 模型 选择 标准 紧密 相关 ， 在 没有 相反 的 先 验 知识 情况 下 ， 它 的 核心 本 质 是 选择 “最 简 
单 ” 函 数 。 针 对 于 我 们 给 出 的 讨论 ， 最 简单 函数 是 指 在 给 定 的 误差 标准 下 逼近 一 个 给 定 映 射 的 
函数 中 最 光滑 的 函数 ， 因 为 这 个 选择 总 体 上 要 求 最 少 的 计算 资源 。 依 赖 于 研究 现象 的 规模 范 
围 ， 光 滑 性 在 许多 应 用 上 同样 是 自然 的 。 因 而 为 不 恰当 的 输入 /输出 关系 寻找 一 个 光滑 的 非 线 
性 映射 是 重要 的 ， 使 得 网 络 能 够 根据 训练 模式 将 新 模式 正确 地 分 类 (Wieland and Leighton, 
1987). 
为 有 效 的 活化 给 出 充分 的 训练 集 大 小 

下 面 的 三 个 因素 对 泛 化 产生 影响 C) 训练 集 的 大 小 ， 以 及 它 如 何 表 示 感 兴趣 的 环境 ; 
(2) 神经 网 络 的 体系 结构 ; (2) 当前 问题 的 物理 复杂 度 。 无 疑 ， 我 们 无 法 对 后 者 进行 控制 。 在 
另外 的 两 个 因素 中 ， 我 们 可 以 从 两 个 不 同 的 方面 考察 泛 化 问题 

。 网 络 的 体系 结构 是 男 定 的 〈 可 期 望 与 固有 问题 的 物理 复杂 度 一 致 ) ， 需 要 解决 的 问题 是 

决定 一 个 产生 好 的 泛 化 必需 的 训练 集 的 大 小 。 

。 训练 集 的 大 小 是 固定 的 ， 感 兴趣 的 问题 是 决定 最 好 的 网 络 体系 结构 使 得 具有 好 的 泛 化 。 

在 它们 各 自 的 方法 里 这 两 种 观点 都 是 合理 的 。 

在 实践 中 ， 看 起 来 对 一 个 好 的 泛 化 而 言 ， 事 实 上 我 们 所 需要 的 全 部 是 训练 集 的 大 小 NB 
足 条 件 

N=0(¥) (4. 87) 
E€ 


这 里 W 是 指 网 络 中 自由 参数 〈 即 罕 触 权 值 和 偏 置 ) 的 总 数 ，e 表示 测试 数据 中 容许 分 类 误差 的 
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部 分 (正如 在 模式 分 类 中 一 样 )。OC，。) 表 示 所 包含 的 量 的 阶 数 。 例 如 ， 具 有 10% 误差 的 所 需 
训练 样本 数量 应 该 是 网 络 中 自由 参数 数量 的 10 倍 。 

式 (4. 85) 与 用 于 LMS 算法 的 Widrow 经 验方 法 是 一 致 的 ， 后 者 指出 线性 自 适应 时 间 滤 波 
的 适应 迟滞 时 间 ， 近 似 等 于 自 适 应 抽 头 延迟 线 滤波 器 的 记忆 范围 除 以 误 调节 得 到 的 商 Wid- 
row and Stearns, 1985; Haykin, 2002). LMS 算法 中 的 误 调 节 扮 演 的 角色 与 式 (4. 87) 中 的 误 
差 s 有 某 些 相似 。 这 个 经 验 规则 的 进一步 理由 将 在 下 一 节 中 介绍 。 


4.12 函数 逼近 


一 个 由 反 向 传播 算法 训练 的 多 层 感知 器 可 以 被 看 作 一 个 实现 一 般 性 质 的 非 线 性 输入 -输出 
映射 的 实际 工具 。 具 体 地 讲 ， 令 m 表示 多 层 感 知 器 的 输入 〈( 源 ) 节点 的 数目 ， 令 M 一 mx K 
示 网 络 中 输出 层 神 经 元 的 数目 。 网 络 的 输入 -输出 关系 定义 一 个 从 mo 维 欧 几 里 得 输入 空间 到 
M 维 欧 几 里 得 输出 空间 的 映射 ， 当 激活 函数 是 无 限 连续 可 微 的 时 候 ， 这 个 映射 也 是 无 限 连 续 
可 微 的 。 在 用 这 种 输入 -输出 映射 观点 来 评价 多 层 感知 器 能 力 的 过 程 中 ， 提 出 了 下 面 基本 的 
问题 : 

一 个 多 层 感知 器 的 输入 -输出 映射 能 够 提供 任何 一 个 连续 映射 的 近似 实现 ， 它 的 隐藏 层 层 
数 的 最 小 数目 是 多 少 ? 
通用 逼近 定理 

这 个 问题 可 以 用 一 个 非 线性 输入 -输出 映射 的 通用 远近 定理 " 来 回答 ， 该 定理 如 下 : 

令 9(，) 是 一 个 非常 数 的 、 有 界 的 和 单调 增 的 连续 函数 。 令 In 表示 m 维 单位 超 立方 体 
[0, 1)", In KER BREA CU 表示。 那么 ， 给 定 任何 函数 FIC, e>0, HER 
样 的 一 个 整数 mi 和 实 常 数 a;， b: P Wiz 其 中 i= 1],*" ,m1 oJ = 1 ,*** ，7720 使 我 们 可 以 定义 


FCz tts Em) 一 Dap( X wz; +t) (4. 88) 
作为 SFO RAGNARR; 也 就 是 说 ， 
| Elai ttt sEm, ) — fx, tm, | < E 
对 存在 于 输入 空间 中 的 所 有 x11 T2908 ,Xm 均 成 立 。 


通用 逼近 定理 可 直接 用 于 多 层 感知 器 。 我 们 首先 注意 到 在 一 个 作为 多 层 感 知 器 结构 的 神经 
元 模型 中 作为 非 线 性 部 分 的 双 曲 正切 函数 是 一 个 真正 非常 数 的 、 有 界 的 和 单调 递增 的 函数 ; 因 
此 它 满足 函数 pg(。) 的 上 述 条 件 。 下 一 步 ， 注 意 式 (4. 88) 表 达 如 下 所 述 的 多 层 感 知 器 的 输出 : 

1. 网 络 具有 mo 个 输入 节点 和 单个 由 m 个 神经 元 组 成 的 隐藏 层 ; 输入 由 x1 ，… ,zm 表示 。 

2. 隐藏 神经 元 t 具有 突 触 权 值 Wi, r s Wn, 和 偏 置 bio 

3. 网 络 的 输出 是 隐藏 层 的 线性 组 合 ， 带 有 定义 输出 层 突 触 权 值 的 wm ，… san o 

通用 侦 近 定理 是 存在 性 定理 ， 它 与 精确 表示 相反 ， 为 任意 连续 函数 的 帝 近 提 供 数 学 上 的 基 
础 。 作 为 定理 的 本 质 ， 式 (4. 88) 仅 仅 是 推广 有 限 Fourier 级 数 副 近 。 事 实 上 ， 这 个 定理 说 明 ， 
对 于 多 层 感 知 器 计算 一 个 由 输入 zx，…zw 和 期 望 (目标 ) 输 出 f(zi，… ,za ) 表示 的 给 定 训练 
集 的 一 致 < 逼近 来 说 ， 单 个 隐藏 层 是 足够 的 。 然 而 ， 此 定理 并 没有 说 明 单 个 隐藏 层 在 学 习 时 
闻 、 实 现 的 难 易 程 度 或 者 〈 更 重要 的 ) 泛 化 意义 上 是 最 优 的 。 
逼近 误差 的 界 

假定 网 络 使 用 sigmoid 函数 的 单 层 隐藏 神经 元 和 线性 输出 神经 元 ，Barron(1993) 建立 了 
多 层 感 知 器 的 允 近 性 质 。 网 络 通过 使 用 反 向 传播 算法 训练 ， 然 后 用 新 的 数据 测试 。 存 训练 过 程 
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中 ， 网 络 根据 训练 数据 学 习 目 标 函 数 f 中 的 特殊 点 ， 从 而 产生 由 式 (4. 88) 中 定义 的 和 逼近 函数 
下 。 当 网 络 遇 到 以 前 没有 见 过 的 测试 数据 的 时 候 ， 网 络 函 数 下 就 充当 目标 函数 中 新 的 点 的 估计 
器 ; 即 F=f。 
目标 泪 数 的 光滑 度 属性 用 它 的 Fourier( 变 换 ) 来 表达 。 特 别 地 ， 用 Fourier 幅度 分 布 加 权 
后 的 频率 向 量 的 范 数 的 平均 值 作 为 函数 f 振 落 的 度量 标准 。 令 f(@) 表 示 函 数 f(x) 的 多 维 Fou- 
rier 变换 ，xE R”: m Xl 向 量 @ 为 频率 向 量 。 函 数 f(x) 由 关于 它 的 Fourier RA Jo) 
的 反 变 换 公 式 定义 如 下 : 
f=], f (@)exp(ja'x) do (4, 89) 


这 里 j= V 一 1T。 对 于 复 值 函 数 fo, Hof 是 可 积 的 ， 我 们 定义 函数 了 的 Fourier 幅度 
分 布 的 一 abe nF. 


C=] IF Ix Holl do (4. 90) 


H+, lol Ho 的 欧 几 里 得 范 数 ，| 了 (ew) | 为 flo) 的 绝对 值 。 一 阶 绝对 动量 Cy 量化 函数 f 
的 光滑 度 。 

一 阶 绝对 动量 C, 为 使 用 以 起 (4. 88) 中 输入 -输出 映射 函数 下 (x) 为 表示 的 多 层 感 知 器 来 通 
近 (x) 而 导致 的 误差 范围 的 界 提供 了 基础 。 到 近 误差 可 以 用 与 一 个 半径 7 之 0 的 球体 B= (x? 
| xj <r) 中 任意 可 能 的 概率 测度 y 相关 的 积分 平方 误差 来 衡量 。 在 这 个 基础 上 我 们 可 以 对 
Barron(1993) 提出 的 通 近 误差 范围 的 界 提出 如 下 命题 ， 


对 于 每 个 具有 有 限 一 阶 绝 对 动量 Cy 的 连续 函数 f(x)， 以 及 每 个 mi 之 1， 存 在 一 个 由 式 
(4.88) 定 义 的 sigmoid BKM REAS 下 (x)， 使 得 当 在 严格 属于 球体 内 部 的 输入 向 量 x 的 值 集 
A ix}, 上 观察 函数 f(xX) 的 时 候 ， 命题 的 结 A TAN: 


Ea CN) = $a - Fa < =£ (4. 91) 
my 
其 中 C,=(2rC;)’. 


在 Barron(1992) 中 ， 利 用 式 (4. 91)? 的 逼近 结果 表示 使 用 具有 m 个 输入 节点 和 m 个 隐藏 
神经 元 的 多 层 感知 器 而 导致 的 风险 包 ， CN 的 界 如 下 : 


E(N) <O( L) + 0(@2t4logN) (4. 92) 


ARE, IN) FE TS REGS TRIE OR OA 

1. 最 佳吉 近 的 精确 度 。 为 了 满足 这 个 要 求 ， 根 据 通用 逼近 定理 隐藏 层 的 大 小 m 必须 足 
EK: 

2. 通 近 的 经 验 拟 合 精确 度 。 为 了 满足 第 二 个 要 求 ， 必 须 使 用 一 个 小 的 比值 mw/N。 对 于 训 
练 集 的 固定 的 大 小 N， 隐 藏 屋 的 大 小 m, 应 该 保持 较 小 ， 这 跟 第 一 个 要 求 是 矛盾 的 。 

RA. 92) 描 述 的 风险 名, CN) 的 界 具有 另外 一 个 有 趣 的 含义 。 特 别 地 ， 我 们 看 到 假如 一 阶 绝 
对 动量 C, 仍 是 有 限 的 话 ， 相 对 于 输入 空间 维 数 m。， 一 个 指数 规模 的 大 样本 集 对 于 得 到 一 个 目 
标 函 数 精确 的 估算 并 不 是 必须 的 。 这 个 结果 使 得 多 层 感知 器 作为 通用 逼近 器 在 实际 条 件 下 其 至 
显得 更 重要 。 

经 验 拟 合 和 最 佳 逼近 之 间 的 误差 可 以 看 作 是 估计 误差 。 令 eo 表示 估计 误差 的 均 方 值 。 然 
BARRA. 92) 中 表达 式 的 第 二 项 的 对 数 因 子 logN， 我 们 可 以 推断 出 一 一 个 好 的 应 化 所 需 的 训 
练 集 大 小 N 大 约 是 zszaiyes 。 这 个 结果 具有 与 经 验 公 式 (4. 87) 相 似 的 数学 结构 ， 记 住 mom 等 
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于 网 络 中 自由 参数 W 的 总 数 。 换 名 话说 ,我 们 可 以 从 总 体 上 说 为 了 得 到 好 的 汉化 ， 训 练 样本 
的 数目 N 应 该 大 于 网 络 中 自由 参数 总 数 和 估计 误差 均 方 值 之 比 。 


维 数 灾 难 
出 现在 式 (4. 92) 所 描述 的 界 中 另 一 个 有 趣 的 结果 是 ， 当 对 隐藏 层 的 大 小 通过 设 定 
N 1/2 
mi 一 Cian) 


进行 优化 (也 就 是 风险 及, CN) 关于 N 最 小 化 ) 的 时 候 ， 风 险 名 ,CN) 由 OCC; Vmo (logN/N)) 
限定 。 这 个 结果 的 一 个 令 人 惊奇 的 方面 是 根据 风险 名 , (和 N) 的 一 阶 行为 ， 以 训练 集 大 小 NN K R 
RIK BER AB C/N)? EWA MRAP). AO. MSE PRR CB 
如 多 项 式 和 三 角 函 数 ) 我 们 有 不 同 的 行为 。 令 s 表示 光滑 度 的 一 种 度量 ， 定 义 为 函数 具有 连续 
导数 的 阶 数 。 那 么 ， 对 于 传统 光滑 函数 ， 我 们 发 现 总 风险 好 .CN) 的 极 小 极 大 的 收敛 速率 的 阶 为 
G/N CT 。 这 个 收敛 速率 对 输入 空间 维 数 mo 的 依赖 就 是 维 数 灾难 ， 这 严重 地 制约 了 这 些 
函数 的 实际 应 用 。 使 用 多 层 感 知 咒 进行 函数 癌 近 看 起 来 提供 超越 于 传统 光滑 函数 的 优势 ， 但 
是 ， 这 个 优势 受 限于 一 阶 绝对 动量 Cj 保持 有 限 的 条 件 ; 这 是 一 个 光滑 度 约束 。 

Richard Bellman 在 对 自 适应 控制 过 程 (Bellman，1961)〉 的 研究 中 介绍 了 维 数 灾难 。 为 了 
从 几何 上 解释 这 个 概念 ， 令 x 表示 一 个 m 维 的 输入 向 量 ，{ (xi ,di)}) ,i 二 1,2,…,NN 表示 训练 
样本 。 采 样 密 度 与 N RIEL. SRR f(x) 代 表 一 个 位 于 m 维 输入 空间 的 曲面 ， 它 近似 通 
过 点 (Ood). WE, WERA f(x) 是 任意 复杂 并 且 (对 绝 大 部 分 ) 是 完全 未 知 的 ， 我 们 
需要 密集 的 样本 (数据 ) 来 进行 很 好 的 学 习 。 不 幸 的 是 ， 密 集 样本 在 “高 维 ” 中 是 很 难 找到 
的 ， 因 此 产生 了 维 数 灾 难 。 特 别 地 ， 维 数 增加 的 结果 导致 复杂 度 呈 指 数 增长 ， 从 而 引起 高 维 空 
间 中 一 致 随机 分 布点 的 空间 填充 性 质 退 化 。 维 数 灾 难 的 基本 原因 如 下 (Friedman, 1995): 

定义 在 高 维 空间 的 函数 很 可 能 远 远 比 定义 在 低 维 空间 上 的 函数 复杂 得 多 ， 并 且 这 些 复杂 的 
东西 更 难以 区 分 。 

基本 上 ， 仅 有 两 个 途径 可 以 减轻 维 数 灾难 问题 : 

L 结合 关于 要 通 近 的 未 知 函 数 的 一 些 先 验 知 识 。 这 些 先 验 知识 是 在 训练 数据 之 上 提供 的 。 
自然 ， 这 些 知 识 的 获得 是 依赖 于 问题 的 。 例 如 在 模式 分 类 中 可 以 通过 理解 输入 数据 的 相关 的 类 
(种 类 ) 来 获得 知识 。 

2. 设计 网 络 使 之 随 着 输入 维 数 的 增加 而 增加 未 知 函数 的 光滑 度 。 

可 行 性 考虑 

从 理论 的 角度 来 看 ， 通 用 逼近 定理 是 重要 的 ， 因 为 对 具有 单个 隐藏 层 的 前 馈 神 经 网 络 作 为 
一 类 逼近 器 的 可 行 性 ， 该 定理 提供 了 必要 的 数学 工具 。 如 果 没 有 这 样 一 个 理论 ， 我 们 可 能 在 言 
目 寻 找 那 些 并 不 存在 的 方法 。 然 而 ， 这 个 理论 并 不 是 构造 性 的 ， 即 它 实际 上 并 不 能 具体 实现 如 
何 由 陈述 的 逼近 性 质 决定 一 个 多 层 感知 器 。 

通用 逼近 定理 假设 被 逼近 的 连续 函数 是 给 定 的 并 且 可 用 一 个 神经 元 数目 无 限制 的 隐藏 层 来 
带 近 。 这 两 个 假设 在 多 层 感 知 器 的 绝 大 多 数 实际 应 用 中 都 是 不 成 立 的 。 

使 用 单个 隐藏 层 的 多 层 感知 器 的 问题 是 隐藏 层 的 神经 元 倾向 于 全 局 地 相互 作用 。 在 复杂 情 
形 下 这 种 相互 作用 使 得 在 一 点 提高 它 的 通 近 的 同时 又 很 难 不 恶化 它 在 另外 点 上 的 逼近 。 另 一 方 
面 ， 在 具有 两 个 隐藏 屋 的 情况 下 逼近 〈 曲 线 拟 合 ) 过 程 变 得 更 容易 协调 。 具 体 地 ， 我 们 可 以 进 
行 如 下 处 理 〈Funahashi，1989; Chester, 1990); 

1. 从 第 一 个 隐藏 层 中 抽取 局 部 特征 。 特 别 地 ， 利 用 在 第 一 个 隐藏 层 中 的 一 些 神经 元 将 输 
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人 空间 分 割 成 区 域 ， 这 层 中 另外 的 神经 元 学 习 表 征 这 些 区 域 特点 的 局 部 特征 。 

2. 从 第 二 个 隐藏 层 中 抽取 全 局 特征 。 特 别 地 ， 在 第 二 隐藏 层 中 的 一 个 神经 元 组 合 在 输入 
空间 特定 区 域 操作 的 第 一 个 隐藏 层 的 各 神经 元 的 输出 ， 从 而 学 习 该 区 域 的 全 局 特征 并 且 在 别处 
的 输出 为 零 。 

Sontag(1992) 为 在 逆 问 题 中 两 个 隐藏 层 的 使 用 提供 了 进一步 理由 。 


4.13 ”交叉 验证 


反 向 传播 学 习 的 本 质 是 把 输入 /输出 映射 《由 标定 的 一 组 训练 样本 表示 〉 编 码 为 一 个 多 层 
感知 器 的 突 触 权 值 和 阐 值 。 我 们 希望 的 是 ， 网 络 通过 良好 的 训练 ， 使 得 它 充 分 地 学 习 过 去 的 数 
据 ， 从 而 对 未 来 有 良好 的 泛 化 能 力 。 从 这 个 观点 来 看 ， 学 习 过 程 意味 着 对 给 定 的 数据 集合 给 出 
网 络 参数 化 的 一 个 选择 。 有 具体 地 ， 我 们 可 以 把 网 络 选择 问题 看 作 是 从 一 组 候选 模型 结构 ( 参 
数 ) 集合 中 选择 符合 某 个 标准 的 “最 好 ”的 一 个 。 

在 这 种 意义 下 ， 统 计 学 中 一 个 名 为 交叉 验证 的 标准 工具 提供 了 一 个 有 吸引 力 的 指导 原则 ， 
(Stone，1974，1978)。 已 有 的 可 用 数据 集 首 先 被 随机 分 割 成 一 个 训练 集 和 一 个 测试 集 。 这 个 
训练 集 被 进一步 细 分 为 两 个 不 相交 子 集 : 

。 估计 子 集 ， 用 来 选择 模型 。 

。 验证 子 集 ， 用 来 测试 或 者 验证 模型 。 

这 里 的 动机 是 用 一 个 与 参数 佑 计数 据 集 不 同 的 数据 集 来 验证 模型 。 用 这 个 办 法 可 以 用 训练 
集 来 估计 不 同 候选 模型 的 性 能 ， 进 而 选择 “最 好 ”的 一 个 。 然 而 ， 这 样 选 出 的 具有 最 优 表现 的 
参数 值 的 模型 ， 很 可 能 会 导致 对 验证 子 集 的 过 度 拟 合 。 为 了 防止 这 种 情况 出 更 ， 使 用 测试 集 来 
衡量 被 选 模型 的 泛 化 性 能 ， 测 试 集 是 与 验证 子 集 不 同 的 集合 。 

当 我 们 不 得 不 以 设计 一 个 具有 好 的 泛 化 性 能 的 大 型 神经 网 络 作为 目标 的 时 候 ， 交 叉 验 证 的 
使 用 是 特别 吸引 人 人 的。 例如， 我 们 可 以 使 用 交叉 验证 确定 具有 最 优 隐藏 神经 元 数目 的 多 层 感 知 
器 ， 以 及 最 好 在 何 时 停止 它 的 训练 ， 正 如 在 下 面 两 小 节 中 所 述 的 那样 。 


模型 选择 
根据 交叉 验证 选择 模型 的 思想 ， 考 虑 如 下 表示 的 布尔 函数 类 的 内 人 结构 : 
多 CF, Cs CF, (4. 93) 
F, = {F,} = (F(x,w)sw E Wi}, k = 1,2,..,n 


EREB, kh RRCKS, 包含 一 艇 具有 相似 体系 结构 的 多 层 感 知 器 ， 其 权 值 向 量 w 从 一 个 
多 维权 值 空间 Wi 中 抽出 。 以 函数 或 者 假设 二 F(x,w)，wEYWi 为 特征 的 类 的 一 个 成 员 把 输入 
向 量 x 映射 到 {0,1)， 这 里 x 是 以 某 未 知 概 率 P 从 输入 空间 吧 中 抽取 出 来 的 。 在 所 述 结构 中 每 
个 多 层 感知 器 都 是 由 反 向 传播 算法 训练 的 ， 该 算法 负责 多 层 感知 器 参数 的 训练 。 模 型 选择 问题 
本 质 是 选择 具有 最 好 的 自由 参数 〈 即 突 触 权 值 和 阐 值 ;数目 w 值 的 多 层 感知 器 。 更 精确 地 讲 ， 
假设 对 输入 向 量 x 的 期 望 响 应 标量 是 4 一 {0，1)， 我 们 定义 泛 化 误差 如 下 : 
e,(F) = P(F(xX) £ d) 对 ET 
给 出 一 个 标定 的 训练 样本 集 
J = (Xod Z 

我 们 的 目标 是 选择 特定 的 假设 F(x,w)， 当 从 测试 集中 给 定 输入 时 它 最 小 化 所 得 泛 化 误差 se(CF) 。 

下 面 假设 由 式 (4. 93) 表 达 的 结构 具有 这 样 的 性 质 ， 即 对 于 任意 大 小 的 N 都 可 以 找到 一 个 
具有 数量 足够 多 的 自由 参数 的 数目 Wi(N) 的 多 层 感 知 器 ， 使 得 训练 数据 集 9 可 以 被 合适 地 所 
合 。 这 只 不 过 重申 4. 12 节 的 通用 逼近 定理 。 我 们 把 Wn(N》 称 为 拟 合 数 。W。(N) 的 意义 在 
于 ,一 个 合理 的 模型 选择 程序 应 该 选择 一 个 满足 WCW, (N) 的 假设 F(x,w); 否则 网 络 复杂 
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度 将 会 增加 。 

令 一 个 位 于 0 和 1 之 间 的 参数 7 决定 估计 子 集 和 验证 子 集 之 间 的 训练 数据 集 9 的 划分 。F 了 由 
NN 个 样本 组 成 ，(1 一 DN 个 样本 分 配给 估计 子 集 ， 剩 下 的 rN 个 样本 分 配给 验证 子 集 。 估 计 子 
集 用 表示 ， 它 用 于 训练 多 层 感 知 器 的 一 个 退 套 序列 ， 嵌 套 结构 导致 复杂 度 递增 的 假设 F, 
9 ，…, 守 , 。 由 于 9 由 (1 一 rn) NN 个 样本 组 成 ， 我们 认为 W 的 值 小 于 或 者 等 于 相应 的 拟 合 数 
W m (CrN). ` 


交叉 验证 方法 的 使 用 导致 选择 
Fy = „min fe (FH. >} (4. 94) 
其 中 wv 对 应 于 WoW CL - NN), e (FETE rN PEAR RE RT” E h 
HF, 产生 的 分 类 误差 。 


关键 问题 是 如 何 具体 确定 参数 r 以 决定 训练 集 9 在 估计 子 集 9” 和 验证 子 集 之 间 的 划分 。 
在 Kearns(1996) 描述 的 研究 中 ， 对 该 论题 进行 分 析 处 理 和 具体 的 计算 机 仿真 支持 ， 确 定 了 最 
优 r 的 几 个 定性 特点 : 
。 当 定 义 输入 向 量 x 的 期 望 响应 4 的 目标 函数 的 复杂 度 相 对 于 样本 大 小 的 N 是 很 小 的 时 
候 ， 交 叉 验 证 的 性 能 对 -的 选择 相对 不 灵敏 。 
。 随 着 目标 函数 相对 于 样本 大 小 N 变 得 更 复杂 ， 最 优 r 的 选择 在 交叉 验证 性 能 上 具有 更 
重要 的 影响 ， 并 且 目 标 函 数 自身 的 值 减 小 。 
。 了 的 一 个 单一 固定 的 值 在 目标 函数 复杂 度 的 一 个 相当 大 的 范围 内 保持 近乎 最 佳 。 
根据 Kearns(1996) 报告 的 结果 ，r 等 于 0. 2 的 一 个 固定 值 看 来 是 一 个 合理 的 选择 ， 这 意 
味 着 训练 集 9 的 80% 被 指定 为 估计 子 集 ， 剩 下 的 20% 被 指定 为 验证 子 集 ”。 


训练 的 早期 停止 方法 

通常 ， 用 反 向 传播 算法 训练 的 多 层 感 知 器 分 阶段 地 进行 学 习 ， 随 训练 过 程 的 进行 实现 相当 
简单 的 映射 函数 到 更 复杂 的 映射 函数 。 这 通过 在 一 个 典型 情形 下 在 训练 中 均 方 误差 随 着 训练 回 
合 的 增加 而 减少 的 例子 来 证 明 : 均 方 误差 从 一 个 很 大 的 值 开始 ， 然 后 迅速 地 减 小 ， 最 后 随 着 网 
络 在 误差 曲面 接近 局 部 最 小 值 的 时 候 缓慢 地 减 小 。 目 标 函 数 的 复杂 度 ， 依 据 输 入 向 量 x 定义 需 
要 的 响应 4， 当 该 复杂 度 小 于 样本 大 小 N 时 ， 以 好 的 泛 化 能 力 为 目标 ， 如 果 我 们 通过 观察 自身 
训练 得 到 的 学 习 曲 线 ， 很 难 断 定 何 时 停止 训练 最 好 。 特 别 地 ， 根 据 4. 11 节 关 于 泛 化 的 内 容 ， 
如 果 训 练 未 在 合适 的 时 间 停 止 ， 那 么 网 络 可 能 过 拟 合 训练 数据 。 

我 们 可 以 通过 交叉 验证 来 标记 过 拟 合 的 发 生 ， 为 此 训练 数据 被 分 成 估计 子 集 和 验证 子 集 。 
使 用 样本 的 估计 子 集 以 通常 方法 训练 网 络 ， 但 有 较 小 的 修改 : 训练 时 间 被 周期 性 地 停止 〈 即 每 
一 个 周期 都 有 许多 训练 回合 ) ， 并 且 在 每 个 训练 周期 之 后 都 由 验证 子 集 测 试 网 络 。 具 体 地 讲 ， 
周期 性 的 估计 伴随 确认 〈estimation-followed-by-validation) 的 过 程 是 如 下 进行 的 : 

。 经 过 一 个 估计 (训练) 周期 之 后 例如 每 五 个 回合 一 一 多 层 感 知 器 的 突 触 权 值 和 偏 

置 都 已 经 固定 ， 网 络 是 在 它 的 前 向 方式 下 运作 的 。 从 而 对 验证 子 集中 的 每 个 样本 测定 
验证 误差 。 

。 当 验 证 阶段 完成 的 时 候 ， 估 计 GIA) 重新 开始 另 一 个 周期 ， 这 个 过 程 被 重复 。 

这 个 过 程 称 作 训练 的 早期 停止 方法 ， 这 是 易于 理解 的 从 而 在 实际 中 广泛 使 用 。 

图 4.17 显示 了 两 种 学 习 曲 线 的 概念 形式 ， 一 个 属于 估计 子 集 上 的 测定 误差 ， 另 一 个 属于 
验证 子 集 。 通 常 ， 模 型 在 验证 子 集 上 的 表现 并 不 像 它 在 估计 子 集 上 的 表现 那么 出 色 ， 它 的 设计 
是 基于 估计 子 集 的 。 估 计 学 习 曲 线 在 一 般 情 况 下 随 训练 回合 数目 的 增加 而 单调 地 减 小 。 与 此 相 
对 ， 验 证 学 习 曲 线 单调 地 递减 到 一 个 最 小 值 ， 然 后 开始 随 训练 的 继续 而 递增 。 当 仅 观察 估计 学 
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习 曲 线 的 时 候 ， 很 明显 通过 越过 验证 学 习 曲 线 上 的 最 小 点 可 以 得 到 它 的 更 小 的 值 。 然 而 实际 
上 ， 网 络 在 越过 该 点 学 习 到 的 主要 是 包含 在 训练 数据 
中 的 噪声 。 这 种 启发 方法 意味 着 验证 学 习 曲 线 上 的 最 
小 点 可 用 于 停止 训练 过 程 的 合理 准则 。 
然而 ， 这 里 有 -一 点 要 当心 。 在 实际 中 ， 验 证 样本 
误差 在 训练 回合 数 上 的 演化 并 不 能 和 图 4. 17 MRR IA 
想 曲 线 一 样 平滑 。 验 证 样本 误差 更 可 能 在 随 着 回合 数 
的 增加 之 前 本 身 旺 现 少数 局 部 极 小 点 。 在 这 样 的 情形 
下 ， 必 须 在 系统 方式 下 选取 终止 准则 。Prechelt(1998) 
提出 的 多 层 感知 器 中 的 实验 调查 从 实验 上 表明 ， 事 实 
E, 在 训练 时 间 和 泛 化 能 力 上 存在 着 折 中 。 在 1296 个 0 TAA 
训练 集 、12 个 不 同 的 问题 、24 个 不 同 的 网 络 结构 所 获 
得 训练 结果 的 基础 上 ， 得 到 的 结论 是 存在 两 个 或 更 多 局 
部 极 小 点 的 情形 下 ,，“ 较 慢 ” 的 停止 准则 〈 即 一 个 比 其 他 准则 较 后 停止 的 准则 ) 的 选取 在 花费 更 
长 的 训练 时 间 (典型 地 ， 大 约 平均 4 倍 ) 下 获得 了 泛 化 性 能 的 小 的 改善 (大约 平均 4%)。 
交 义 验证 的 变 体 
上 述 交叉 验证 的 方法 称 为 坚持 到 底 方法 (hold out method)。 在 实际 中 还 有 另外 一 些 能 找 
到 它们 自身 应 用 的 交叉 验证 的 变 体 ， 特 别 是 在 缺乏 标定 样本 的 时 候 。 在 这 样 的 情况 下 可 以 通过 
把 NN 个 样本 的 可 用 集合 分 割 为 K 个 子 集 来 使 用 多 重 ap 
ZLEFE, K>1; 这 里 假设 N WK 是 可 除 的 。 eL e CI Eo 
这 个 模型 在 除了 一 个 子 集 之 外 的 其 他 子 集 上 进行 训练 ， xw CO a 加 
验证 误差 通过 剩 下 子 集 上 的 测试 来 测量 。 这 个 过 程 总 
共 被 重复 K 次 试验 ， 每 次 使 用 一 个 不 同 的 子 集 进行 验 sws CI CC] CI 
证 ， 如 图 4.18 所 示 K=4 的 情形 。 模 型 性 能 的 评估 是 
通过 求实 验 中 所 有 的 实验 的 验证 平方 误差 的 平均 值 来 “xD OI 上 一 
进行 的 。 多 重 交叉 验证 存在 - -个 缺点 : 因为 模型 必须 图 4 18 多 重 交叉 验证 的 示意 图 。 对 一 给 定 
训练 次 ， 它 可 能 需要 这 多 的 计算 其 ， ET Bok taal Cine RDC ALN 
当 可 用 的 标定 样本 的 数目 N 被 严格 限制 的 时 候 ， 我 们 可 以 使 用 被 称 为 留 一 方法 (leave- 
one-out method》 的 多 重 交 又 验证 的 极端 形式 。 在 这 种 方法 中 ，N 一 1 个 样本 用 来 训练 模型 ， 
并 日 这 个 模型 通过 剩 下 的 一 个 样本 的 测试 来 验证 。 这 个 实验 总 共 被 重复 N 次 ， 每 次 留 出 一 个 
不 同 的 样本 来 进行 验证 。 然 后 通过 验证 的 平方 误差 在 N 次 实验 上 求 平均 。 


4. 14 复杂 度 正则 化 和 网 络 修 前 


无 论 用 何 种 方式 设计 一 个 多 层 感 知 器 ， 实 际 上 都 是 对 生成 用 于 训练 网 络 的 输入 输出 样本 的 
物理 现象 建立 一 个 非 线性 模型 。 就 网 络 的 设计 而 论 在 本 质 上 还 是 统计 的 ， 我 们 需要 在 训练 数据 
的 可 靠 性 和 模型 的 适应 度 之 间 寻 找 一 个 适当 的 平衡 〈 即 在 第 2 章 中 解决 偏 置 方 差 困 境 的 方法 )。 
在 反 向 传播 学 习 的 背景 下 ， 或 者 任何 其 他 的 监督 学 习 过 程 而 言 ， 我 们 都 可 能 通过 最 小 化 表述 如 
下 的 总 量 风险 以 实现 折 中 : 







验证 样本 误 益 


i oe 训练 样本 误差 





图 4. 17 基于 交叉 验证 的 早期 停止 准则 示意 图 


R iw) = B&W) +A E(w) (4. 95) 
第 一 项 色 ,(w) 是 标准 的 性 能 度量 ， 它 同时 依赖 于 网 络 ( 模 型》 和 输入 数据 。 在 反 向 传播 学 习 
中 ， 它 被 典型 地 定义 为 均 方 误差 ， 该 误差 的 计算 扩展 到 网 络 输出 神经 元 ， 并 且 它 在 每 一 回合 芯 
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基础 上 对 所 有 训练 样本 来 完成 ， 参 考 式 (4. 5) 。 第 二 项 人 @(w) 是 复杂 度 惩罚 ， 复 杂 度 仅 依赖 于 网 
络 〈 模 型 ); 它 所 包含 的 内 容 利用 我 们 可 能 具有 的 关于 所 考虑 模型 的 解 的 先 验 知识 。 对 于 当前 
的 讨论 ， 把 4 看 作 正 则 化 参数 就 足够 了 ， 它 代表 着 关于 性 能 度量 项 的 复杂 度 惩罚 项 的 相对 重要 
性 。 当 为 零 的 时 候 ， 反 向 传播 学 习 过 程 是 无 约束 的 ， 网 络 由 训练 样本 完全 确定 。 另 一 方面 ， 
当 4 趋 于 无 穷 大 的 时 候 ， 这 意味 着 由 复杂 度 惩罚 所 得 到 的 约束 自身 就 可 以 具体 确定 网 络 ， 用 另 
一 种 说 法 就 是 训练 样本 是 不 可 靠 的 。 在 复杂 度 正则 化 的 实际 应 用 中 ， 正 则 化 参数 A 被 赋予 两 个 
极端 情形 之 间 的 某 个 位 置 的 值 。 第 7 章 将 讨论 正则 化 理论 的 细节 。 
权 值 衰减 过 程 

在 一 个 简单 但 有 效 的 称 为 权 值 训 减 过 程 〈Hinton，1989) 的 复杂 度 正 则 化 中 ， 复 杂 度 惩罚 
项 被 定义 为 网 络 中 权 值 向 量 w( 即 所 有 的 自由 参数 ) 的 平方 范 数 ， 表 示 为 

ew = Nw’= >) wv (4. 96) 


iE Botal 


其 中 集合 6 是 指 网 络 中 所 有 的 突 触 权 值 。 这 个 过 程 是 通过 强迫 网 络 中 的 一 些 突 触 权 值 取 近 似 
于 零 的 值 来 进行 的 ， 而 允许 其 他 的 权 值 保持 它们 相对 大 的 值 。 所 以 ， 网 络 的 权 值 大 致 分 为 两 
个 类 ， 

1) 对 网 络 性 能 具有 很 大 影响 的 权 值 。 

2) 对 网 络 性 能 具有 很 少 或 者 根本 没有 影响 的 权 值 。 

在 后 一 类 中 的 权 值 称 为 多 余 权 值 。 在 不 进行 复杂 度 正则 化 的 情况 下 ， 这 些 权 值 很 可 能 取 完 
全 任意 的 数值 ， 或 为 了 得 到 训练 误差 上 的 轻微 减少 而 促使 网 络 过 度 拟 合 训 练 数据 ， 从 而 导致 很 
差 的 泛 化 性 能 “Hush and Horne，1993)。 复 杂 度 正则 化 的 使 用 鼓励 多 余 权 值 取 得 接近 于 零 的 
数值 ， 因 而 提高 泛 化 能 力 。 
基于 Hessian 和 矩阵 的 网 络 修剪 : 最 佳 脑 外 科 医 生 

网 络 修剪 解析 方法 的 基本 思想 是 利用 误差 曲面 的 二 次 导数 信息 得 到 网 络 复杂 度 和 训练 误差 
性 能 之 间 的 折 中 方案 。 特 别 地 ， 构 造 误差 曲面 的 一 个 局 部 模型 ， 解 析 地 预测 突 触 权 值 的 扰动 所 
造成 的 影响 。 构 造 这 样 一 个 模型 结构 的 出 发 点 是 在 运行 点 附近 使 用 Taylor 级 数 给 出 代价 函数 
多 ,的 局 部 逼近 ， 撒 述 如 下 : 

bow + Aw) = € Ow) + 87 (Ww Aw + FAW HAW + OC || Aw ||) (4,97) 


其 中 Aw 是 运行 点 w 的 扰动 ，g(Cw) 是 在 w 处 的 梯度 向 量 。Hessian 矩阵 同样 在 w 点 进行 计算 ， 
因而 ， 为 了 准确 起 见 ， 我 们 用 HC(w) 来 表示 它 。 在 式 (4.97) 中 并 没有 这 么 做 仅仅 是 因为 简化 
记号 。 

要 求 确认 一 组 参数 使 得 从 多 层 感 知 器 上 删除 它们 而 代价 函数 名, 的 值 增长 最 小 。 为 了 实际 
解决 这 个 问题 ， 我 们 进行 如 下 到 近 : 

L 极 值 区 近 。 我 们 假设 参数 仅 在 训练 过 程 收 敛 〈 即 网 络 被 完全 训练 ) 之 后 才 被 从 网 络 中 
删除 。 这 个 假设 的 含义 就 是 参数 的 取 值 为 误差 曲面 上 一 个 局 部 最 小 或 者 全 局 最 小 。 在 这 种 情况 
下 ， 梯 度 向 量 g 可 以 设 为 零 因而 可 以 忽略 式 (4. 97) 右 边 的 grAw 项 。 否则 显著 性 度量 (将 在 后 
边 定义 ) 将 对 当前 问题 无 效 。 

2 二 次 允 近 。 我 们 假设 局 部 最 小 或 者 全 局 最 小 周围 的 误差 曲面 是 近似 “二 次 的 ”>。 因 此 同 
样 可 以 忽略 式 (4. 97) 中 的 更 高 次 项 。 

在 这 两 个 假设 之 下 ， 式 (4. 97) 被 简单 近似 为 : 


A Saw = Elw t Aw) — Ew) = + Aw Haw (4. 98) 
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式 (4. 98) 提 供 了 称 为 最 优 脑 外 科 (optimal brain surgeon, OBS) 的 修 前 过 程 ， 这 是 根据 Hassi 
bi and Stork(1993) 而 来 的 。 
OBS 的 目标 是 置 一 个 突 触 权 值 为 零 使 得 式 (4. 98) 中 给 出 的 名 ,的 递增 增 量 最 小 化 。 令 wC) 
表示 这 个 特别 的 突 触 权 值 。 这 个 权 值 的 删除 等 价 于 条 件 ; 
17 Aw+ w; = 0 (4. 99) 
成 立 ， 其 中 1; 是 除了 第 i 个 元 素 等 于 单位 1 之 外 其 他 所 有 元 素 均 为 零 的 单位 向 量 。 现 在 可 以 重 
H OBS 的 目标 如 下 : 


对 权 值 向 量 增长 变化 Aw Rebeka aw Haw, 使 它 满足 约 东 条 件 TAwtw, AB, 
然后 关于 下 标 i 求 最 小 化 。 
这 里 进行 两 个 层次 上 的 最 小 化 。 一 个 最 小 化 是 当 第 i 个 权 值 向 量 置 零 后 对 仍 保留 的 突 触 权 
值 向 量 进行 的 ; 第 二 个 最 小 化 是 对 特定 被 修剪 的 向 量 进行 的 。 
为 了 解决 这 个 约束 最 优化 问题 ， 首 先 构 建 一 个 拉 格 郎 日 算 子 
S 一 = Aw HAw AA Aw w) (4. 100) 


其 中 和 是 拉 格 朗 日 乘 子 。 然 后 求 拉 格 朗 日 函数 S 对 Aw 的 导数 ， 应 用 式 (4. ID NARA, FF 
且 利用 矩阵 的 逆 ， 我 们 发 现 权 值 向 量 w PRETO 


Aw 一 一 = H '1; (4. 101) 


mT. 
拉 格 朗 日 算 子 S 对 元 素 w 的 相应 最 优 值 是 


一 Wi 
S = 0. (4, 102) 


其 中 HÆ Hessian 矩阵 H AVG, [HO], FEI PROSE (i,i) 个 元 素 。 假 设 第 i 个 突 触 
权 值 ww, 被 删除 ， 对 Aw 进行 优化 而 得 到 的 拉 格 朗 日 算 子 S: 称 为 wi 的 显著 性 (saliency), BK 
E, 显著 性 S; 代表 由 于 w; 的 删除 而 导致 的 均 方 误差 (性 能 标准 ) 中 的 增长 。 注 意 显著 性 5S; 
是 与 w? 成 正比 的 。 这 样 小 的 权 值 在 均 方 误差 上 具有 小 的 影响 。 然 而 ， 从 式 (4. 102) 中 可 以 看 到 
显著 性 S 同样 与 逆 Hessian 矩阵 的 对 角 元 素 成 反比 。 这 样 如 果 (A). BDH, 那么 甚至 小 
的 权 值 也 可 能 对 均 方 误差 有 实质 性 的 影响 ，。 

在 OBS 过 程 中 ， 相 应 于 最 小 特征 值 的 权 值 被 选 为 删除 的 权 值 。 此 外 ， 剩 余 权 值 的 最 佳 变 
化 由 公式 (4. 101) 给 出 ， 这 说 明 它们 可 以 沿 道 Hessian 矩阵 的 第 i 列 方向 被 校正 。 

HE Hassibi 等 人 发 表 的 关于 一 些 基准 问题 的 内 容 ，OBS 过 程 产生 的 网 络 比 其 他 通过 权 值 衰 
减 的 过 程 得 到 的 网 络 更 小 。 同 时 报告 OBS 过 程 应 用 于 包含 和 18 000 个 权 值 的 多 层 
感知 器 NETtalk 的 结果 ， 网 络 被 修剪 到 仅 有 1560 个 权 值 ， 这 在 网 络 的 大 小 上 有 急剧 的 减少 。 
归功 于 Sejnowski 和 Rosenberg(1987) 的 NE Ttalk， 将 在 4. is 节 中 讲述 。 

计算 Hessian RAR. Hessian 矩阵 的 逆 H :是 OBS 过 程 的 公式 基础 。 当 网 络 中 自 由 参 
OW 的 数目 很 大 的 时 候 ， 计 算 H-: 的 问题 可 能 是 难以 处 理 的 。 设 多 层 感知 器 被 完全 训练 到 误 
差 曲面 上 的 局 部 最 小 ， 下 面 我 们 描述 一 个 计算 H :的 可 控 过 程 (Hassibi and Stork, 1993), 

为 了 简化 表达 ， 假 设 多 层 感知 器 具有 单个 输出 神经 元 。 然 后 对 一 个 给 定 的 训练 集 可 以 把 式 
(4. 5) 的 代价 函数 表示 为 : 


Ea (W) 一 NÈ AD 0) 
其 中 oD EAS n APERIA BTR ER o dn) EAR N 是 训练 集中 样本 
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的 总 数 。 输 出 o(n) 本 身 可 以 表示 为 : 

oln) = F(w,x) 
其 中 下 是 多 层 感知 器 实现 的 输入 输出 映射 函数 ，x 是 输入 向 量 ，w 是 网 络 的 突 触 权 值 向 量 。 因 
此 各 ,对 w 的 一 阶 导数 为 








d bac 1 Sy OF (Cw. x(n)) 
Ow Nou Sw (d(n) ~ o(n)) (4. 103) 


对 vw 的 二 阶 导数 或 者 Hessian 矩阵 是 : 


_ OB lI/OFCW XOIV TaFCw,xGOOD) FF(w,x(n)) 
H(N) = &— Nos ( Yaxin ) macn ) oxen (din) o(n))| 





C4. 104) 
这 里 我 们 强调 了 Hessian 和 矩阵 对 训练 样本 大 小 N 的 依赖 性 。 
在 网 络 是 被 完全 训练 的 假设 下 ， 即 代价 函数 名 ,被 调整 到 误差 曲面 的 一 个 局 部 最 小 值 ， 
说 ol) 近似 于 d(n) 是 合理 的 。 在 这 个 条 件 下 我 们 可 以 忽略 第 二 项 ， 这 样式 (4.104) 的 副 
近 为 : 








pD (E XC?) (FCW ex)" (4, 105) 


H(N) = Sw 
为 了 简化 符号 ， 定义 WX1 向 量 : 


E(n) = 1 OF (w,x(n)) 


VN ow 
它 可 以 通过 4. 8 节 所 述 的 过 程 来 计算 。 然 后 我 们 就 可 以 用 递归 的 形式 重 写 式 (4. 105) 如 下 : 


H(n) = DEE = =Hn—-Dt+EWE), n= 1,2,05N (4. 107) 


SSA UA TE J APE Ag AE EG 3] 9 用 的 正确 形式 ， 它 也 称 为 Woodbury 等 式 。 
令 A 和 B 表示 由 关系 


(4. 106) 





A = B`” + CDC" 
定义 的 正定 和 矩阵， 其 中 C 和 D ERIAN., RER, BRA 的 逆 定 义 为 
A = B—BC(D+C'BC) 'C’B 
对 于 式 (4. 107) 中 所 述 的 问题 我 们 有 
A= H(n) 
B = H(n—1) 
C= &(n) 
D=1 
应 用 矩阵 逆 引 理 得 到 对 于 Hessian 矩阵 求 逆 的 递归 计算 公式 : 


i op H (n— DEMME) H (no 1) 
H (a) = H'(n—1) LFE mH DE) (4. 108) 


注意 式 (4. 108) 中 的 分 母 是 一 个 标量 ; 因此 直接 计算 它 的 倒数 。 这 样 ， 给 定 Hessian 矩阵 的 逆 过 去 
的 值 Hz 一 1)， 我 们 就 可 以 计算 它 由 向 量 EORR n 个 样本 呈现 后 的 更 新 值 H a). AA 
递归 计算 将 继续 到 六 个 样本 的 整个 集合 被 计算 为 止 。 为 了 初始 化 这 个 算法 ， 我 们 需要 使 H (0) 
很 大 ， 因 为 根据 式 (4. 108) 它 是 持续 地 减少 的 。 这 个 要 求 可 以 通过 如 下 设 定 来 满足 : 
K (0) = 一 SI 
其 中 5 是 一 个 小 的 正 数 ，I 是 单位 和 矩阵。 这 个 初始 化 的 形式 保证 H (2z) 总 是 正定 的 。8 的 影响 
随 着 越 来 越 多 的 样本 出 现在 网 络 中 而 变 ation. 
表 4.1 是 最 优 脑 外 科 算 法 的 小 结 
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表 4.1 最 优 脑 外 科 算 法 小 结 


= 


- 训练 给 定 多 层 感知 器 至 最 小 均 方 误差 。 
. 利用 4.8 和 节 所 述 过 程 计算 向 量 


CS 


Ein) = 1 OF CwexG)) 
JN 


ow 

HH F(w.x(n)) St AA EL et w OY & JR SE A A BH) x(n) 是 输入 向 其 。 
利用 递归 式 (4. 108) 计 算 Hessian MEI HO! , 

. 寻找 相应 于 最 小 显著 性 的 产 


> w 


~ wi 
S; = 2LH- j;.; 
其 中 [H] E G, D 个 元 素 。 如 果 显 著 性 S, 远 小 于 均 方 误差 轧 ,.， 那么 删除 突 触 权 值 ww， 并 且 执 行 第 5 
步 。 否 旭 ， 转 第 6 步 。 
. 通过 应 用 如 下 的 调整 来 校正 网 络 中 所 有 的 突 触 权 值 ; 


w, 
Aw =— eH! 
w [HI 1 


o 


转 第 2 步 。 
当 不 再 有 权 值 可 以 因为 网 络 中 均 方 误差 没有 大 的 增加 而 被 删除 的 时 候 停止 计算 。( 也 许 期 望 在 该 点 重新 训练 网 络 。) 


P 





4.15 反 向 传播 学 习 的 优点 和 局 限 


首先 最 重要 的 是 ， 需 要 理解 反 向 传播 算法 不 是 试图 实现 最 优 设 计 的 多 层 感知 器 的 算法 。 撒 
述 它 的 正确 途径 应 该 是 : 

反 向 传播 算法 是 一 个 对 于 计算 代价 函数 名 (tw) 的 梯度 〈 即 一 阶 时 数 ) 计算 有 效 的 技术 。 代 
价 函 数 由 刻画 多 层 感知 器 的 可 调 参 数 〈 突 触 权 值 和 仿 置 ) 的 通 数 来 表示 。 


算法 的 计算 能 力 是 由 两 个 明显 的 性 质 而 导出 的 : 

1. 反 向 传播 算法 是 局 部 计算 简单 的 。 

2. 当 算 法 是 在 线 GRR) 学 习 时 它 实现 权 值 空间 的 随机 梯度 下 降 。 
连接 机 制 

反 向 传播 算法 是 依靠 局 部 计算 来 发 现 神经 网 络 信息 处 理 能 力 的 一 个 连接 论 者 范例 的 例子 。 
计算 限制 的 这 种 形式 称 为 局 部 约束 ， 它 是 指 单个 神经 元 实现 的 计算 仅 受 那 些 与 它 有 物理 接触 的 
神经 元 的 影响 。 在 〈 人 工 ) 神经 网 络 的 设计 中 提倡 利用 局 部 计算 通常 有 三 个 主要 的 理由 : 

1. 实现 局 部 计算 的 神经 网 络 常常 被 作为 生物 神经 网 络 的 类 比 来 推举 。 

2. 由 于 使 用 局 部 计算 允许 由 于 硬件 错误 引起 的 平稳 的 性 能 下 降 ， 因 此 为 容错 网 络 设计 提 
供 基 础 。 

3. 局 部 计算 支持 作为 神经 网 络 实现 有 效 方法 的 并 行 体系 结构 。 
复制 器 〈 恒 等 ) 映射 

通过 反 向 传播 算法 训练 的 多 层 感 知 器 的 隐藏 神经 元 作为 特征 检测 器 扮演 着 重要 的 角色 。 利 
用 多 层 感知 器 的 这 个 重要 性 质 的 一 个 新 方法 是 使 用 它 作 为 复制 器 或 者 恒 等 映 射 《Rumelhart 
等 ，1986b; Cottrel 等 ，1987) 。 图 4. 19 表明 对 于 使 用 单个 隐藏 层 的 多 层 感 知 器 情况 下 这 是 如 
何 完成 的 。 网 络 构 形 满足 如 下 的 结构 要 求 ， 正 如 图 4. 19a 所 示 的 那样 : 

bd 输入 和 输出 层 神经 元 数 H 具有 相同 的 大 小 m。 

。 隐藏 层 的 神经 元 个 数 M 小 于 m。 

。 网 络 是 完全 连接 的 。 

一 个 给 定 的 模式 x 同时 作为 输入 层 的 刺激 和 输出 层 的 期 望 响应 。 输 出 层 的 实际 响应 # 是 打 
FAVE x 的 “估计 ”。 通 过 常用 的 方法 使 用 反 向 传播 算法 训练 网 络 ， 估 计 误 差 向 量 (x 一 %) E 
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为 误差 信号 处 理 ， 如 图 4. 19b 所 示 。 这 个 训练 是 在 无 监督 情形 下 完成 的 〈 即 不 震 要 教师 )。 借 
助 多 层 感 知 髓 的 设计 所 建立 的 特殊 结构 这 一 优点 ， 通 过 它 的 隐藏 层 约束 网 络 以 实现 恒 等 映射 。 
输入 模式 的 一 个 编码 形式 ， 用 ; 表示 ， 它 是 在 隐藏 层 的 输出 中 产生 的 ， 如 图 4. 19a 所 示 。 事 实 
上 ， 完 全 训练 的 多 层 感知 器 充当 了 “编码 器 ”的 角色 。 为 了 重 构 初 始 输 入 模式 并 的 估计 六 ( 即 实 
现 解 码 )， 我 们 将 编码 信号 应 用 于 复制 器 网 络 隐 藏 层 ， 如 图 4. 19c 所 示 。 事 实 上 ， 后 面 的 网 络 
扮演 了 “解码 器 ”的 角色 。 如 果 我 们 使 得 隐藏 层 的 大 小 M 与 输入 /输出 层 大 小 m 相 比 越 小 ， 那 
么 图 4. 19a 的 结构 作为 一 个 数据 压缩 系统 的 作用 就 越 大 "。 


多 层 感知 器 









a 输入 信号 
Rair] XA aren 


5 
lS 











> 解码 信号 














图 4.19 a) 具有 一 个 隐藏 层 的 作为 编码 器 的 复制 嚣 网络 ( 恒 等 映射 ); b〉 复 制 器 网 络 监督 训 
练 的 方 框 图 ; c) 作为 解码 器 的 复制 器 网 络 部 分 


PÁ OGB UL 
通过 反 向 传播 算法 训练 的 多 层 感知 器 自身 表明 是 一 个 租 套 sigmoid 函数 结构 ， 在 单个 输出 
的 情形 下 用 紧凑 形式 写 为 : 
F(x,w) = el Z wap Hwse( el Dwiz) ))) (4. 109) 
其 中 o( + ) Æ sigmoid 激活 函数 ， wn 是 从 最 后 一 个 隐藏 层 的 神经 元 到 单个 输出 神经 元 o 的 突 
触 权 值 ， 依 此 类 推 得 到 其 他 突 触 权 值 ，xz; 是 输入 向 量 x 的 第 i 个 元 素 。 权 值 向 量 w 表示 突 触 权 
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值 的 完整 集合 ， 其 排列 顺序 首先 按 层 ， 然 后 按 每 层 中 的 神经 元 ， 最 后 按 神经 元 中 的 突 触 。 式 
(4.109) 中 租 入 非 线 性 函数 的 设计 在 经 典 副 近 论 中 是 不 常见 的 。 正 如 第 4. 12 节 讨 论 的 那样 ， 
它 是 一 个 通用 逼近 器 。 

计算 的 效率 


算法 的 计算 复杂 度 通常 是 用 乘法 、 加 法 的 次 数 和 它 的 实现 所 涉及 的 存储 量 来 衡量 的 。 一 个 
学 习 算 法 从 一 次 迭代 到 下 一 次 迄 代 ， 若 它 的 计算 复杂 度 对 于 要 更 新 的 可 调整 参数 的 数目 而 言 是 
多 项 式 的 ， 我 们 就 说 这 个 算法 是 计算 有 效 的 。 在 这 个 基础 上 ， 也 可 以 说 反 向 传播 算法 是 计算 有 
效 的 ， 正 如 本 节 的 开始 部 分 所 总 结 的 那样 。 特 别 地 ， 在 使 用 这 一 算法 进行 包含 全 部 的 突 触 权 值 
W( 包 括 偏 置 的 多 层 感 知 器 的 训练 中 ， 它 的 计算 复杂 度 在 W 中 是 线性 的 。 反 向 传播 算法 的 这 
个 重要 性 质 可 以 通过 检查 如 4. 4 节 所 述 的 完成 前 向 通过 和 反 向 通过 所 涉及 的 计算 而 容易 得 到 证 
明 。 在 前 向 通过 中 ， 计 算 涉 及 的 突 触 权 值 是 那些 网 络 中 不 同 神经 元 的 诱导 局 部 域 所 属 的 权 值 。 
这 里 我 们 从 式 (4. 44) 看 到 这 些 计算 对 网 络 的 突 触 权 值 是 线性 的 。 在 反 向 通过 中 ， 涉 及 突 触 权 值 
的 仅 有 的 计算 是 那些 分 别 由 式 (4. 46) 和 式 (4. 47) 所 述 的 属于 C) 隐藏 神经 元 的 局 部 梯度 和 
(2) 突 触 权 值 自身 的 更 新 。 这 里 同样 可 以 看 到 这 些 计 算 对 网 络 的 突 触 权 值 全 部 是 线性 的 。 因 此 
得 出 结论 ， 反 向 传播 算法 的 计算 复杂 度 对 到 是 线性 的 ， 即 它 是 OCW)。 
灵敏 度 分 析 

从 使 用 反 向 传播 学 习 中 得 到 的 另 一 个 计算 上 的 好 处 是 它 提供 了 一 个 有 效 的 方法 ， 通 过 它 可 
以 进行 由 这 个 算法 实现 的 输入 输出 映射 的 灵敏 度 分 析 。 输 入 输出 映射 函数 下 关于 也 数 的 一 个 
参数 的 灵敏 度 ， 以 w Bm, BLA: 





st = EIE 
然后 考虑 一 个 经 过 反 向 传播 算法 训练 的 多 层 感 知 器 。 令 函数 F(w) 为 网 络 实现 的 输入 输出 映射 ; 
w 表示 网 络 中 包含 的 所 有 突 触 权 值 (包括 偏 置 ) 向 量 。 在 4. 8 PRIER T RR Cw) AL 
值 向 量 w 中 所 有 元 素 的 偏 导数 是 可 以 进行 有 效 计算 的 。 特 别 地 ， 我 们 知道 这 些 偏 导数 计算 所 涉 
及 的 复杂 度 对 网 络 包 含 权 值 的 总 数 W 是 线性 的 。 这 种 线性 关系 与 问题 的 突 触 权 值 在 计算 链 中 
出 现 的 位 置 无 关 。 
ETE 

在 第 3 章 中 我 们 指出 ，LMS 算法 中 能 量 小 的 扰动 只 会 引起 小 的 估计 误差 ， 从 这 个 角度 来 
看 它 是 鲁 棒 的 。 如 果 固 有 的 观察 模型 是 线性 的 ，LMS 算法 是 一 个 H”" 最 优 滤波 器 (Hassibi 等 ， 
1993，1996) 。 这 意味 着 LMS 算法 最 小 化 由 估计 误差 的 扰动 带 来 的 最 大 能 量 增益 。 

从 另 一 方面 来 看 ， 如 果 固 有 的 观察 模型 是 非 线性 的 ，Hassibi 和 Kailath(1995) 证 明了 反 
向 传播 算法 是 一 个 局 部 H 最 优 滤波 器 。 这 里 使 用 的 “局 部 ”术语 是 指 反 向 传播 算法 中 使 用 的 
权 值 向 量 初始 值 充分 靠近 权 值 向 量 的 最 优 值 w” ， 以 确保 该 算法 不 陷 人 一 个 坏 的 局 部 最 小 中 。 
用 概念 性 的 说 法 ， 看 到 LMS 和 反 向 传播 算法 属于 同一 类 型 的 H” 最 优 滤 波 器 是 令 人 满意 的 。 
收敛 性 

反 向 传播 算法 在 权 值 空间 中 对 于 误差 曲面 上 的 梯度 使 用 “瞬时 估计 ”。 因 此 该 算法 在 本 质 
上 是 随机 的 ; 也 就 是 说 ， 它 在 误差 曲面 上 具有 通过 在 真实 方向 附近 的 锯齿 形 路 线 趋 于 最 小 点 的 
倾向 。 其 实 ， 反 向 传播 学 习 是 最 初 由 Robbins and Monro(1951) 提出 的 所 谓 随机 逼近 的 统计 
学 方法 的 一 个 应 用 。 因 此 ， 它 倾向 于 缓慢 收敛 。 我 们 可 以 验 明 这 个 性 质 的 两 个 基本 原因 Ga- 
cobs, 1988); 

1. 误差 曲面 沿 着 一 个 权 值 方向 是 相当 平坦 的 ， 这 意味 着 误差 曲面 对 这 个 权 值 的 导数 在 数 


(4. 110) 





量 上 是 很 小 的 。 在 这 种 情况 下 ， 应 用 于 这 个 权 值 的 调整 是 很 小 的 ， 因 此 在 网 络 误差 性 能 上 产生 
重大 的 降低 可 能 要 求 这 个 算法 的 多 次 和 迭代。 或 另 一 方面 ， 误 差 曲面 沿 着 一 个 权 值 方向 是 高 度 弯 
曲 的 ， 在 这 种 情形 下 误差 曲面 对 该 权 值 的 导数 在 数量 上 是 很 大 的 。 在 这 第 二 种 情况 下 ,应 用 于 
该 权 值 的 调整 是 很 大 的 ， 这 可 能 会 导致 该 算法 越过 误差 曲面 的 最 小 点 。 

2. 负 梯 度 向 量 的 方向 《〈 即 代价 函数 对 权 值 向 量 的 负 时 数 ) 可 能 指向 远离 误差 曲面 的 最 小 
值 : 因此 应 用 于 权 值 的 调整 可 能 导致 算法 往 错 误 的 方向 进行 。 

为 了 避免 用 于 训练 多 层 感 知 髓 的 误差 反 向 传播 算法 的 慢 速 收敛 ,我 们 可 以 选择 如 4. 10 节 
所 描述 的 最 优 退 火 在 线 学 习 算法 。 

局 部 最 小 值 

对 反 向 传播 算法 性 能 造成 影响 的 误差 曲面 的 男 一 个 特点 是 除了 全 局 最 小 值 之 外 的 局 部 最 小 
E CITED 的 出 现 。 通 常 ， 很 难 确定 有 多 少 个 局 部 和 全 局 最 小 值 。 由 于 反 向 传播 学 习 基 
本 上 是 一 个 讨 出 技术， 因此 它 存在 陷 人 局 部 最 小 值 的 危险 ， 此 处 罕 触 权 值 的 每 个 微小 变化 都 会 
引起 代价 函数 的 增长 。 但 在 权 值 空间 的 别 的 某 个 地 方 存在 另外 一 个 罕 触 权 值 的 集合 ， 它 的 代价 
函数 的 值 比 在 网 络 被 停止 处 的 局 部 最 小 值 更 小 。 我 们 显然 不 希望 学 习 进程 停止 在 局 部 最 小 值 ， 
特别 是 当 它 处 于 远 高 于 全 局 最 小 值 的 位 置 。 
规模 

原则 上 ， 诸 如 由 反 向 传播 算法 训练 的 多 层 感知 器 之 类 的 神经 网 络 具有 成 为 通用 计算 机 器 的 
潜在 可 能 。 然 而 ， 要 充分 实现 这 种 潜能 ， 必 须 克 服 规模 (scaling) 问题 ， 它 是 指 随 计 算 任 务 在 
大 小 和 复杂 性 上 的 增加 网 络 表 现 的 优 劣 〈 如 由 训练 所 需 时 间 和 可 得 到 的 最 优 泛 化 性 能 来 衡量 ) 
的 问题 。 在 度量 计算 任务 大 小 和 复杂 度 的 许多 可 能 的 办 法 中 ， 由 Minsky and Papert(1969, 
1988) 定义 的 谓词 阶 (predicate order) 提供 了 最 有 用 也 是 最 重要 的 标准 。 

为 了 解释 一 个 谓词 意味 着 什么 ， 令 Jy(X) 表 示 一 个 只 能 有 两 个 取 值 的 函数 。 通 常 取 YX 
的 两 个 值 为 0 和 1。 但 通过 取 值 为 假 (FALSE) 或 真 《TRUE)， 可 以 认为 Jy(X) 是 一 个 谓词 ， 
即 一 个 可 变 的 陈述 ， 其 真 和 假 依 赖 于 变量 X 的 选择 。 例 如 ， 我 们 可 以 写 出 
1 车 图 形 匀 是 一 个 图 
0 车 图 形 X 不 是 一 个 贺 

使 用 谓词 的 思想 ，Tesauro and Janssens(1988) 进行 实证 研究 ， 使 用 反 向 传播 算法 训练 多 
层 感 知 器 来 学 习 计 算 奇偶 函数 。 奇 偶 函 数 是 如 下 定义 的 布尔 谓词 : 

1 若 |XX| 是 奇数 
PARITY (X) = f 否则 
它 的 阶 数 等 于 输入 的 个 数 。Tesauro 和 Janssens 进行 的 这 个 实验 显示 ， 网 络 学 习 计 算 奇偶 函数 
所 需 的 时 间 与 输入 个 数 〈 即 计算 的 谓词 阶 数 ) 呈 指 数 关 系 ， 并 且 使 用 反 向 传播 算法 学 习 任 意 复 
杂 的 函数 的 计划 可 能 是 过 于 乐观 的 。 

一般 认为 对 一 个 多 层 感 知 器 进行 完全 连接 是 失策 的 。 因 此 ， 在 此 背景 下 ， 我 们 可 以 提出 如 
下 问题 ， 给 定 一 个 不 应 被 完全 连接 的 多 层 感 知 器 ， 网 络 的 突 触 连 接 将 如 何 分 配 ? 这 个 问题 在 小 
规模 的 应 用 情况 并 不 是 主要 考虑 的 问题 ， 但 它 对 利用 反 向 传播 学 习 解 决 现实 世界 中 大 规模 的 问 
题 的 成 功 应 用 是 至 关 重 要 的 。 

减轻 规模 问题 的 一 个 有 效 办 法 是 发 展 对 当前 问题 的 认识 (可 能 是 通过 神经 生物 学 的 类 比 ) 
并 利用 它 增加 多 层 感 知 器 体系 结构 设计 的 灵活 性 。 具 体 地 讲 ， 网 络 体系 结构 和 加 于 网 络 突 触 权 
值 上 的 约束 应 该 这 样 设计 ， 以 使 关于 任务 的 先 验 知识 合并 到 网 络 的 组 成 中 去 。 这 种 设计 策略 在 
第 4. 17 节 中 在 关于 光学 字符 识别 的 问题 中 说 明 。 


Perce È X) = | 
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4.16 作为 最 优化 问题 看 待 的 监督 学 习 


本 节 用 一 种 与 前 面 几 节 讨论 有 很 大 不 同 的 关于 监督 学 习 的 观点 。 具 体 地 讲 ， 我 们 把 多 层 感 
知 器 的 监督 训练 看 作 是 一 个 数值 最 优化 问题 。 在 这 个 背景 下 我 们 首先 指出 使 用 监督 学 习 的 多 层 
感知 器 的 误差 曲面 是 突 触 权 值 向 量 w 的 高 度 非 线性 函数 ; 在 多 层 感 知 器 的 情形 下 ，w 表示 网 络 
中 以 某 种 顺序 排列 的 突 触 权 值 。 令 旬 .Cw) 表 示 在 训练 样本 上 的 平均 代价 函数 。 使 用 Taylor 级 
数 ， 在 误差 曲面 当前 运行 点 附近 我 们 可 以 如 式 (4. 97) 那 样 展 开 包 .(w)， 这 里 重 写 为 ， 
Ea (wn) 十 AwGa) = Ey CwGr)) +g Gr) Awa) 








+ Aw" (MAD AWD 十 (三 次 和 更 高 次 项 ) (4-111) 
其 中 g(x) de a ABBA En ge, ELN: 

gin) = oe we 《4. 112) 
H(n) 是 局 部 Hessian 和 矩阵， 表示 误差 性 能 曲面 的 “曲率 ”， 定 义 为 ; 
| Hin) = 3 Sow) (4. 113) 





总 体 -平均 代价 沙 数 8,(w) 的 使 用 预 设 了 批量 学 习 。 

在 以 反 向 传播 算法 为 例 的 最 速 下降 法 中 ， 应 用 于 突 触 权 值 向 量 w(n) 的 调节 量 Aw(z) 定 
义 为 : 

Aw(n) =— npn) (4.114) 
其 中 7 为 国定 的 学 习 率 参 数 。 事 实 上 ， 最 速 下 降 法 是 在 运行 点 w(n) 的 局 部 邻 域 对 代价 函数 的 
线性 通 近 基 础 上 进行 计算 的 。 在 这 样 的 处 理 中 ， 它 依赖 于 作为 误差 曲面 局 部 信息 唯一 来 源 的 梯 
度 向 量 gC(n)。 这 个 限制 具有 一 个 有 利 的 效果 : 实现 的 简单 性 。 不 幸 的 是 ， 它 同样 具有 一 个 不 
利 的 影响 : 缓慢 的 收敛 速度 ， 特 别 是 在 大 规模 问题 的 情形 下 这 是 令 人 烦恼 的 。 在 权 值 更 新 的 公 
式 中 包含 动量 项 是 使 用 误差 曲面 二 阶 信息 的 大 胆 尝试 ， 这 样 做 有 一 些 帮助 。 然 而 ， 由 于 必须 在 
由 设计 者 “调整 ”的 参数 列表 中 增加 一 项 ， 它 的 使 用 使 得 训练 过 程 的 管理 更 费时 间 。 

为 了 使 多 层 感知 器 的 收敛 性 能 有 显著 的 改善 〈 与 反 向 传播 学 习 相 比 )， 必 须 使 用 训练 过 程 
的 高 阶 信息 。 我 们 可 以 通过 调用 误差 曲面 在 当前 点 w(z) 半 围 的 二 次 逼近 来 实现 。 然 后 从 式 
(4. 111) 可 以 发 现 应 用 于 突 触 权 值 向 量 w(n) 的 调整 量 的 最 优 值 Aw(z) 由 下 式 给 出 : 

Aw’ (n) = H''(n)g(n) (4.115) 
其 中 HT (ww) 是 Hessian 矩阵 HGz) 的 道 ， 假 设 它 是 存在 的 。 式 (4. 115) 是 牛顿 法 的 核心 。 如 果 
代价 函数 把,(w) 是 二 次 的 ( 式 (4. 109) 中 的 三 次 和 更 高 次 项 为 零 )， 那 么 牛顿 法 一 次 迭代 后 收 
敛 到 最 优 值 位 置 。 然 而 ， 牛 顿 法 对 多 层 感 知 器 的 有 监督 训练 的 实际 应 用 受到 三 个 因素 的 
BEL RE : 

。 牛顿 法 要 求 计算 Hessian GMM H Ca), KAY REEI A E a RIEK IR ER. 

。 为 了 使 了 -1(o) 是 可 计算 的 ，H(z) 必 须 是 非 奇 异 的 。 在 Hz) 为 正定 的 情况 下 ， 当 前 点 
wz) 周 围 的 误差 曲面 可 以 描述 为 “ 凸 碗 状 ”。 遗 憾 的 是 ， 并 不 能 保证 多 层 感知 璐 误差 
曲面 的 Hessian 矩阵 总 是 符合 这 样 的 描述 。 而 且 ， 还 有 Hessian 和 矩阵 秩 亏 损 的 潜在 问 
BR ( 即 并 不 是 所 有 的 H 的 列 都 线性 无 关 )， 这 是 由 于 网 络 训练 问题 中 固有 的 病态 性 所 
造成 的 〈Saarinen 等 ，1992); 这 只 会 使 得 计算 任务 更 加 困难 。 

。 YAR BE, Cw) 是非 二 次 的 时 候 ， 和 牛顿 法 的 收敛 性 得 不 到 保证 ， 这 使 得 它 不 适合 于 
训练 多 层 感 知 器 。 
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为 了 克服 其 中 某 些 困难 ， 我 们 可 以 使 用 拟 牛 顿 法 ， 它 仅仅 要 求 梯度 向 量 g 的 一 个 估计 值 。 
这 种 牛顿 法 的 修正 不 经 过 计算 抢 阵 的 逆 而 直接 得 到 逆 挎 阵 开 的 正定 估计 。 通 过 使 用 这 样 的 估 
计 ， 拟 牛顿 法 保证 在 误差 曲面 上 是 下 降 的 。 然 而 ， 我 们 仍然 有 一 个 OC(W?*) 的 计算 复杂 度 ， 其 
中 W 是 权 值 向 量 w 的 大 小 。 因 此 拟 牛 顿 法 在 计算 上 是 不 可 行 的 ， 伐 非 对 一 个 非常 小 规模 的 神 
经 网 络 进行 训练 。 关 于 拟 牛 顿 法 将 在 本 节 后 面 讨论 。 

另 一 类 型 的 二 阶 最 优化 方法 包括 共 轿 梯度 方法 ， 它 被 认为 是 一 种 介 于 最 速 下 降 法 和 牛顿 法 
之 间 的 方法 。 使 用 共 轿 梯度 方法 的 动机 是 期 望 加 速 在 最 速 下 降 法 中 特别 缓慢 的 收敛 速度 ， 同 时 
避免 在 牛顿 法 中 要 求 对 Hessian SERIA, FERRARIS. 
共 轿 梯度 方法 " 

共 轿 梯度 方法 属于 人 所 共 知 的 共 轿 方向 方法 的 二 阶 最 优化 方法 的 一 类 。 我 们 通过 考虑 二 次 
函数 : 

FOO = Fx Ax— bTx e (4. 116) 


的 最 小 化 来 开始 这 些 方法 的 讨论 ， 其 中 r 是 一 个 WX1 参数 向 量 ,A 是 WXW 对 称 正定 矩阵 ， 
b 是 WX1 向 量 ,c 是 标量 。 二 次 函数 fx) 的 最 小 化 是 通过 赋予 z 如 下 唯一 值得 到 的 ;: 
x* =A™b (4.117) 
BORE FORRAR FB Ax” =b 的 线性 系统 就 是 等 价 问题 。 
eee A， 如 果 满 足下 述 条 件 ， 则 称 非 零 向 量 sS(0) ,s(1),…,s(W 一 1) HSA A-H 
的 〈 即 在 矩阵 A 下 互 不 干扰 ): 


sT(n)As(j) = 0 aA n és (4. 118) 
如 果 A 等 于 单位 矩阵 ， 共 斩 就 等 间 于 通常 的 正 交 性 概念 。 
例 1 A- 共 斩 向 量 的 解释 x, v 


为 了 解释 A-H., 4 BE 4. 20a 
所 示 的 属于 二 维 问题 的 情形 。 图 中 所 示 椭 
圆 轨 迹 对 应 于 方程 〈4. 116) 在 
x = [2.2 1" 
对 二 次 函数 f(x) 指 定 的 某 个 常数 值 的 图 形 。 X v 
图 4. 20a WEE — SE FB A SER TY 
向 向 量 。 假 定 我 们 通过 变换 











v= Ax 
定义 一 个 新 的 与 x 相关 的 参数 向 量 v， 其 中 a) b) 
AYE A 的 平方 根 。 这 样 图 4. 20a 中 椭圆 轨 ”图 4.20 A-J EE D RS 
迹 就 被 变换 为 图 4.20b 所 示 的 圆 形 轨 迹 ， 迹 ; b) 椭圆 轨迹 到 圆 形 轨迹 的 变换 


相应 地 ， 图 4. 20a 中 A- 共 示 的 方向 向 量 对 也 被 转换 为 图 4. 20b 中 的 一 对 正 交 方向 向 量 。 7 
关于 A-MAEM—-*+BEEREECNBRBAAM. RIIE AA EWEA EH aE E. 
令 这 些 向 量 的 其 中 之 一 ， 比 如 s(0)， 用 其 余 W 一 1 个 向 量 的 线性 组 合 表示 如 下 : 


s(0) = Fas) 
两 边 乘 以 A 并 用 As(0) 和 s(0) 作 内 积 得 到 
s™(0)As(0) = Shays" (O)ASC) =0 
然而 ， 有 两 个 原因 使 得 二 次 型 s"(0)As(0) 不 可 能 为 零 : 矩阵 A 是 被 假设 为 正定 的 ， 向 量 sC0) 


第 4 章 多 层 感 知 器 .119 


定义 为 非 零 。 因 此 可 以 得 出 A- 共 箔 的 向 量 s(0) ,s(1),…,sCW 一 1) 不 能 是 线性 相关 的 ;也 就 是 
说 ， 它 们 必须 是 线性 无 关 的 。 

对 于 一 个 给 定 的 A- FE RETA S(O) ,s(1),…,s(W 一 1) 的 集合 ， 相 应 的 二 次 误差 函数 f(x) 
的 无 约束 最 小 化 共 轿 方向 方法 定义 为 


x(n+ 1) = x(n) + y(n) sm) n =0,1,,W— i (4. 119) 
其 中 x(0) 是 任意 的 开始 向 量 ，7(22) 是 由 
Sn) + g(r s(r)) = minf (x(n) + ys(n)) (4. 120) 
Ki 


定义 的 标量 (Fletcher, 1987; Bertsekas，1995)。 通 过 选择 7 对 某 个 固定 的 FIRER Saxla) 十 
ns(n)) 最 小 的 过 程 称 为 线 搜索 ， 这 表示 一 维 最 小 化 问题 。 

根据 式 (4. 118)，(4.119) 和 (4. 120)， 可 以 得 到 如 下 结果 : 

1. 由 于 A- 共 斩 的 向 量 s(0) ,s(1),…,s(W 一 1) 线性 无 关 ， 它们 组 成 w 的 向 量 空 间 的 一 
组 基 。 

2. 更 新 公式 (4. DARA. 120) 的 线 最 小 化 导出 学 习 率 参数 相同 的 公式 ， 即 


y(n) 一 一 于 名 Ae) ， n=0,1,",W—1 (4. 121) 

其 中 eCn) 是 误差 向 量 ， 定 义 为 
e(n) = x(n) — x* (4, 122) 
3. 从 任意 一 个 点 xCO) HH A. HES AEAEE ER WK PRA RK Fo) =0 


的 最 优 解 x” 。 

共 绒 方向 方法 的 主要 性 质 如 下 (Fletcher, 1987; Bertsekas, 1995): 

在 连续 的 闪 代 中 ， 共 罗 方 向 方法 在 逐渐 扩张 的 线性 向 量 空间 上 最 小 化 二 次 辑 数 f(x)， 最 
Aas (x) 的 全 局 最 小 值 。 

特别 地 ， 对 于 每 次 迭代 n, ERAR x(n 十 1) BMRB CORE AHH 
Ht s(0),s(1),…,s(n) 扩展 成 的 线性 向 量 空间 久 %, 上 使 函数 f(x) 最 小 化 ， 表 示 为 


x(n+ 1) = arg minf (x) (4. 123) 
其 中 空间 @, 定义 为 
D, = {x(n) |x(n) = xC0) 十 gsc} (4. 124) 


AY HERG RR, BRATS AW A-E s,s), 8(W—1) 集 
A. EXTEN ARH AEREA PRR A PS, MEDEA T. (KR 
了 (x) 的 后 继 梯 度 向 量 的 A EET RTE A TE, AE OR oe TK 
这 样 ， 除 了 nn 二 0 之 外 ， 方 向 向 量 的 集合 {s(n)} 并 不 是 预先 指定 的 ， 相 反 它 是 在 该 方法 的 后 


继 的 步 又 中 串 行 决定 的 。 
首先 ， 定 义 残 差 作为 最 速 下 降 方向 ， 
r(n) = b— Ax(n) (4,125) 
进而 通过 Cn) 和 s(C2 一 1) 的 线性 组 合 来 继续 ， 表 示 为 : 
s(n) = rn) 十 Ba)s(2 一 1)， 7 一 1 2 多 一 ] (4. 126) 


其 中 pORBREREN THAT. AAG ASN, WRN PRD A, H 
将 结果 表达 式 和 s(n 一 1) 作 内 积 ， 然 后 求解 8Cn) 的 结果 表达 式 ， 得 到 


s’ (n— 1) Ar(n) 
4.127 
s'(n—1)As(n— 1) C ) 





Bn) 
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通过 式 (4.126) 和 式 (4. 127)， 我们 发 现 这 样 得 到 的 向 量 s(0),s(1),…,s(W 一 1) ARE A-H 
的 。 

根据 递归 公式 (4. 126) 产 生 的 方向 向 量 依 赖 于 系数 8C(n)。 由 于 BC) 目前 的 表示 形式 ,计算 
BCn) 的 公式 (4. 127) 儿 要 矩阵 A 的 知识 。 出 于 计算 上 的 原因 ， 和 希望 不 利用 A 的 明显 知识 的 情况 
下 对 BCn) 进 行 计算 。 这 样 的 计算 可 以 通过 两 个 不 同 公式 中 的 一 个 得 到 (Fletcher, 1987); 

1. Polak-Ribiére 公式 ， 其 中 p(n) RH: 
r’(m)(r(n) — r(n— 1)) 








BO) = rn Dein D C4. 128) 
2. Fletcher-Reeves 公式 ， 其 中 BU) XW: 
了 

Bn) Rr) (4. 129) 


r’(n— l)rln— 1) 
Hy T FALE He BA E D We Ach BB A BS RY RT R R En CW) FY TCR Be HE HT 
题 ， 我 们 做 两 件 事情 : 
。 用 一 个 二 次 函数 来 到 近代 价 函 数 名 .(w) 。 也 就 是 说 ， 式 (4. 111) 中 三 阶 和 更 高 阶 项 被 忽 
略 ， 这 意味 着 我 们 正在 有 逼近 误差 曲面 上 的 一 个 局 部 最 小 值 。 在 这 个 基础 上 ， 比 较 式 
(4.111) 和 式 (4. 116)， 可 以 得 到 表 4.2 显示 的 联系 。 

















”用 公式 表示 在 共 思 梯度 算法 中 系数 表 4.2 f(x) 和 多。(w) 之 间 的 对 应 
poD 和 7) 的 计算 ， 使 得 仅仅 要 求 梯 kaaro | RRE) 
度 信 息 。 参数 向 量 x HALAL Tt W 
后 面 一 点 在 多 层 感知 器 中 特别 重要 ， 因 为 梯度 向 量 3f (x) /3x 梯度 向 量 g 二 3 /Ow 
它 避 免 了 使 用 Hessian 矩阵 HO), Bee gi WEA Hessian 矩阵 H 
估 值 会 遭遇 严重 的 计算 困难 。 


当 没 有 Hessian FAME Ha) 的 明显 知识 时 ， 为 了 计算 决定 搜索 方向 s(n) 的 系数 Bm), AT 
利用 式 (4. 128) Polak-Ribiére 公式 或 者 式 (4. 129) 中 的 Fletcher-Reeves 公式 。 这 两 个 公式 都 
仅 包含 残 差 的 使 用 。 假 定 一 个 二 次 函数 ， 在 共 思 梯 度 方法 的 线性 形式 中 ，Polak-Ribiére 公式 和 
Fletcher-Reeves 公式 是 等 价 的 。 另 一 方面 ， 在 非 二 次 代价 函数 的 情形 下 ， 它 们 不 再 等 价 。 

对 于 非 二 次 最 优化 问题 ， 共 斩 梯 度 算 法 的 Polak-Ribiere 形式 优先 于 该 算法 的 Fletcher-Reeves 
式 ， 针 对 这 个 问题 我 们 在 下 面 提供 启发 性 的 解释 〈Bertsekas，1995): H PRM MME. Cw) B= 
阶 与 更 高 阶 项 的 存在 和 线 搜索 中 可 能 的 不 精确 性 ， 所 产生 的 搜索 方向 的 共 配 性 逐渐 丧失 。 这 使 
得 生成 的 方向 向 量 s(n) 近 似 正 交 于 残 差 r(z) ， 在 这 种 意义 上 算法 可 能 陷 人 “堵塞 ”。 当 这 种 现 
象 出 现 的 时 候 ， 我 们 有 r(z) 一 r(z 一 1)， 在 这 种 情况 下 标量 8(n) 接 近 于 零 。 相 应 地 ， 方 向 向 量 
s(n) 近 似 于 残 差 r(n)， 从 而 打破 堵 寒 。 与 此 相反 ， 当 使 用 Fletcher-Reeves AS HVAT RE, FEE 
梯度 算法 在 相似 的 条 件 下 继续 堵塞 。 

然而 ， 在 极 少数 的 情况 下 ，Polak-Ribiere 方法 可 以 无 限 循环 下 去 而 不 收敛 。 值 得 庆幸 的 
是 ，Polak-Ribiére 方法 的 收敛 可 以 通过 选择 

B = max{frr:0} (4. 130) 
得 到 保证 ， 其 中 Brr 是 由 式 (4. 128) 的 Polak-Ribière 公式 定义 的 值 (Shewchuk，1994)。 如 果 
Ber 二 0， 利 用 式 (4. 130) 中 定义 的 8 的 值 等 于 重新 开始 共 轿 梯度 算法 。 重 新 开始 运算 等 于 遗忘 最 
后 的 搜索 方向 并 且 在 最 速 下 降 方向 上 重新 开始 。 

考虑 下 一 个 计算 参数 7(z) 的 问题 ， 它 决定 了 共 罗 梯 度 算法 的 学 习 率 。 和 计算 BOR, 
计算 yn) 的 首选 方法 是 避免 必须 使 用 Hessian 矩阵 HCn)。 回 忆 一 下 ， 基于 式 (4. 120) 的 线 最 小 
化 导出 的 7(z) 的 公式 和 源 于 更 新 公式 (4. 119) 得 到 的 yn) 计算 公式 相同 。 因此 需要 一 个 直线 搜 
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索 ?:，. 这 样 的 目的 是 对 7 RE RR E wH). EREK, AERE wA s 的 固定 值 ， 现 在 
的 问题 是 改变 y 使 得 栅 数 最 小 化 。 随 着 7 的 变化 ， 自 变量 w 十 天 在 ww 的 殉 维 向 量 空间 中 天 出 
一 条 直线 ， 因 此 称 为 “直线 搜索 ”。 直 线 搜索 算法 是 一 个 迭代 过 程 ， 它 为 共 绒 梯度 算法 的 每 次 
迭代 产生 一 个 估计 序列 {wn)}。 当 找到 令 人 满意 的 解 时 ， 直 线 搜索 被 停止 。 直 线 搜索 必须 在 
每 个 搜索 方向 上 进行 。 

文献 中 提出 了 几 种 直线 索 搜 算 方 法 ， 并 且 选 择 -- 个 好 的 算法 是 重要 的 ， 因 为 它 对 被 散人 其 
中 的 共 轿 梯度 法 的 性 能 具有 深远 的 影响 。 任 何 直 线 搜索 算法 都 有 两 个 阶段 (Fletcher, 1987): 

。 区 间 阶 段 ， 也 就 是 搜索 一 段 区 间 (bracket)( 即 包含 一 个 最 小 值 的 非 平凡 间隔 ); 

。 截 段 阶段 ， 在 这 个 阶段 中 ， 阶 层 被 截 成 段 《 即 被 分 割 )， 因 此 产生 一 系列 长 度 越 来 越 小 

的 子 区 间 。 

现在 我 们 给 出 一 个 直接 处 理 这 两 个 阶段 的 曲线 拟 合 过 程 。 

令 包 ,( 力 表示 多 层 感 知 器 的 代价 函数 ， 表 示 为 了 的 函数 。 假 设 到 , (7) 是 严格 单 峰 的 《uni- 
modaD( 即 它 在 当前 点 w(Cz) 的 附近 只 有 单一 的 最 小 值 ) 并 且 是 二 次 连续 可 微 的 。 我 们 治 直线 开 
始 搜索 过 程 ， 直 到 求 出 满足 条 件 : 

Eom) > EP S bums Fyn <p<m (4. 131) 
的 三 个 点 qm. ms mpo WE 4.21 BAR. FE (办 是 g ESE PR, IA. 131) 描 述 的 选择 保 
证 区 间 Cp ep) 包含 函数 名 (四 的 一 个 最 小 值 。 假 设 函 数 各 , (7) 充 分 光滑 ， 可 以 认为 这 个 函数 
在 紧邻 最 小 值 的 区 间 是 抛物 线形 的 。 因 此 ， 可 以 使 用 反 抛物 线 插值 法 (inverse parabolic inter- 
polation) 进行 分 段 (Press 等 ，1988) 。 具 体 地 讲 ， 这 个 抛物 线 函 数 可 以 通过 三 个 初始 点 思 、 
mo p WA WEA 22 所 示 ， 图 中 实 线 对 应 于 名 , Cp) HERA TB St BOT AE BGR BOER. S p 
表示 通过 三 点 a. p. p 的 抛物 线 的 最 小 值 点 。 在 图 4 22 OBIE, RIEC Cp) bw Cp)» 
En P) Enl) i p H p 代替 得 到 新 的 区 间 [7 7]。 通 过 构造 一 条 通过 点 ns ps p 的 
抛物 线 重复 这 个 过 程 。 上 述 包 括 区 间 后 再 分 段 的 过 程 重 复 多 次 ， 直 到 找到 一 个 足够 接近 包 , (7) 
的 最 小 值 的 点 ， 此 时 直线 搜索 终止 。 
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图 4.21 直线 搜索 示意 图 图 4.22 反 抛 物 线 插值 

Brent 方法 建立 刚才 所 述 的 三 点 曲线 拟 合 过 程 的 一 个 高 度 精练 的 形式 〈Press 等 ，1988) 。 

在 计算 的 任何 特殊 阶段 ，Brent 方法 保持 多, (函数 6 个 点 的 轨迹 ， 所 有 点 可 能 不 必 互 不 相同 。 

如 前 所 述 ， 抛 物 线 插值 试图 通过 这 些 点 中 的 三 个 。 为 了 使 得 这 个 插值 法 是 可 接受 的 ， 剩 下 的 三 
点 必须 满足 一 定 标 准 。 最 终结 果 是 一 个 鲁 棱 直线 搜索 算法 。 
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次 ) 形式 所 有 需要 的 要 素 。 表 4. 3 给 出 了 该 算法 的 小 结 。 


表 4.3 用 于 多 层 感知 器 有 监督 训练 的 非 线 性 共 思 梯 度 算法 小 结 


初始 化 
除非 权 值 向 量 w 的 先 验 知识 是 可 用 的 ， 否 则 使 用 与 反 向 传播 算法 相似 的 过 程 选择 初始 值 w(0) 。 


计算 


1. 对 于 w(0)， 用 反 向 传播 算法 计算 梯度 向 量 g(0) 。 
2. # s(0)=r(0)=— g0). 
3. 在 时 间 步 >， 用 直线 搜索 寻找 充分 最 小 化 思 ,( 刀 的 72z) ， 对 于 固定 的 w 和 s， 代 价 函 数 色 ,表示 为 7 的 函数 。 
4. 测试 决定 r(z) 的 欧 几 里 得 范 数 是 否 下 降 到 一 个 特定 的 值 之 下 ， 即 为 初始 值 | r(0) | 的 很 小 的 一 部 分 。 
5. 更 新 权 值 向 量 : 
wn + 1) = wn) + qsa) 

6. 对 于 w(z 十 1) ， 用 反 向 传播 算法 计算 更 新 的 梯度 向 量 g(x 十 1)。 
7. 置 r(z 十 1) 一 一 g8Cz 十 1)。 
8. 用 Polak-Ribiére 方法 计算 Aint): 

Ka+) = ma FEED =r) o) 


9. 更 新 方向 向 其 : 





s(nt+1) = rnt1)tBnt1)s(n) 





10. $ n=n 十 1， 转 第 3 步 。 
停止 准则 。 当 下 述 条 件 满足 时 结束 算法 ， 
| ra) || <e |] Co) | 


其 中 是 一 个 指定 的 小 的 数 。 





WA BE 
重新 开始 讨论 拟 牛顿 法 ， 我 们 发 现 这 基本 上 是 用 更 新 公式 : 
wlat 1) = win) ym) s(n) (4. 132) 
表示 的 梯度 方法 ， 其 中 方向 向 量 s(n) 用 梯度 向 量 g(x) 定 义 为 ; 
s(n) =— S(n)g(n) (4. 133) 


矩阵 SC(n) 是 在 每 次 迭代 中 调整 的 正定 矩阵 。 这样 做 是 为 了 使 得 方向 向 量 s(n) 通 近 牛 顿 方 
向 ， 即 
— (Ə B/W ) CD $y /Ow) 
拟 牛 顿 法 使 用 误差 曲面 的 二 阶 〈 曲 率 ) 信息 ， 实 际 上 不 要 求 Hessian 矩阵 H 的 知识 。 这 通 
过 使 用 两 次 连续 迁 代 wn) 、wCa 十 1) 与 梯度 向 量 gC《n)、gCn 十 1) 来 实现 。 令 


qln) = g(r +1) — gln) (4. 134) 
和 
Awla) = w(n+ 1) — wn) (4. 135) 
XFER VO a ak : 
qin) = (Zem) awn) (4. 136) 


得 到 曲率 信息 。 特 别 地 ， 给 定 W PRET AC Awo), aw), e AWW — 1) 和 各 自 
的 梯度 增 量 q(0),q(1),…,q(W — 1), 可 以 逼近 Hessian HM HOF. 

H = [q(0),q(1),°**.q(W — 1) J[Aw(0) ,Aw(1) mAw( 友 一 1 六 (4. 137) 
i Ay ABA Hessian 矩阵 如 下 : 

H`’ ~ [Aw(0),Aw(1),***,AwC(W — 1) ][q(0),q(1) s+ ,q¢CW — 1) J" (4. 138) 
当代 价 函数 名 ,(w) 为 二 次 函数 的 时 候 ， 式 (4. 137) 和 式 (4. 138) 是 精确 的 。 
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在 最 常用 的 一 类 拟 牛 顿 法 中 ， 和 矩阵 S(n 十 1) 由 它 先 前 的 值 SC(x)， 向 量 Aw(n) 和 q(n) 使 用 
如 下 的 递归 算式 得 到 (Fletcher, 1987; Bertsekas, 1995): 
Sin +1) = S(n) 4 Aw(n) Aw'(n) SMAA (n) Sn) 








q’ (ndq(n) gq’ (n)S(n)q(n) 
EDLA (n) Sn) qn) Lv nv (Cn) | (4.139) 
其 中 
Von) = a Aw OE (4.140) 
并 且 
0 过 &(n) <1, 对 于 所 有 了 (4. 141) 


该 算法 由 任意 定义 的 正定 矩阵 SC0) 进 行 初始 化 。 拟 牛顿 法 的 特殊 形式 参数 化 为 如 何 定义 标量 
&(n)， 如 下 面 的 两 点 所 示 (Fletcher, 1987): 
。 对 于 所 有 7 HEC) 一 0， 我 们 得 到 Davidon-Fletcher-Powell(DFP) 算法 ， 它 是 历史 
上 最 初 的 拟 牛 顿 法 。 
。 对 于 所 有 ne) 二 1， 我 们 得 到 Broyden-Fletcher-Goldfarb-Shanno(BFGS) 算法 ， 
它 在 如 前 被 认为 是 拟 牛 顿 法 的 最 好 形式 。 
拟 和 牛顿 法 和 共 圈 梯度 法 的 比较 
我 们 通过 在 非 二 次 最 优化 问题 背景 下 对 拟 牛 顿 法 和 共 罗 梯 度 法 的 比较 ， 来 结束 拟 牛 顿 法 的 
简要 讨论 (Bertsekas, 1995): 
。 LE We PSE EEG ABA EA Hessian MH. AMM, WE OIA Ww Hessian 
矩阵 来 进行 下 一 步 计算 。 所 以 ， 当 直线 搜索 是 精确 的 并 且 充 分 逼近 一 个 具有 正定 Hes- 
sian 矩阵 的 局 部 最 小 值 时 ， 拟 牛顿 法 趋 于 通 近 牛顿 法 ， 因 此 得 到 的 收敛 速度 比 共 轿 梯 
度 法 可 能 的 收敛 速度 更 快 。 
。 拟 牛 顿 法 不 如 共 轿 梯度 法 那样 对 在 最 优化 的 直线 搜索 阶段 的 精度 敏感 。 
。 除了 方向 向 量 SG) 计算 相关 的 矩阵 向 量 乘 法 之 外 ， 拟 牛顿 法 还 要 求 存储 矩阵 S(n)。 最 后 
oi a BE ee ATP RE OCW). HR, HMA RRA A OW). 
RR, MAg WMA wT BO RAR, HAER EE RAH ER 
有 更 大 的 优越 性 。 
正 是 因为 最 后 这 一 点 ， 实 际 上 拟 牛 顿 法 限于 小 规模 神经 网 络 的 设计 。 
Levenberg-Marquarat 方法 
归功 于 Levenberg(1994) 和 Marquardt(1963) 的 Levenberg-Marquardt 方法 ， 是 如 下 两 
种 方法 的 折 中 : 
。 牛顿 法 ， 在 局 部 或 者 全 局 最 小 点 附近 快速 收敛 ,但 也 可 能 发 散 ; 
。 梯度 下 降 ， 通 过 对 于 步 长 参数 的 正确 选择 保证 了 收敛 性 ， 但 收敛 缓慢 。 
具体 来 说 ， 考 虑 二 阶 函 数 FCw) 的 最 优化 ， 且 令 g 为 其 梯度 向 量 ，H 为 其 Hessian OH. 
根据 Levenberg-Marquardt 方法 ， 作 用 于 参数 向 量 w 的 最 优 调整 量 Aw 定义 为 : 
Aw = (H-+all'g (4, 142) 
其 中 工 为 和 百 具 有 相同 维 数 的 单位 和 矩阵， 是 正则 或 负荷 参数 ， 用 来 强制 矩阵 〈 了 HTAD 为 正 
定 的 ， 并 且 在 计算 过 程 中 是 完全 充分 条 件 的 。 还 需要 注意 的 是 式 (4. 142) 的 调整 量 Aw 是 由 式 
(4. 115) 定 义 的 公式 的 小 的 修正 。 
有 了 这 样 的 背景 ， 考 虑 具有 一 个 单一 输出 神经 元 的 多 层 感知 器 。 网 络 是 通过 最 小 化 如 下 的 
代价 函数 来 训练 的 : 
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EW = [dG FAOD; W] (4. 143) 


其 中 XG, dC) EURER, FAO ;w) 是 网 络 实现 的 逼近 函数 ， 网 络 的 突 触 权 值 按 某 种 
顺序 排列 形成 权 值 向 量 w。 代 价 函 数 名 , (w) 的 梯度 和 Hessian 矩阵 分 别 定义 为 : 


_ BW 1s a OF(x(i) sw) 
g(w) Sw N 2a ld) Fx) sw) ] SE (4.144) 





All 





H(w) = ə oe Cw) 一 1 Hy POH ][aFawdiw 


pec BED 
因此 ， 将 式 (4. 144) 和 式 (4. 145) 40 A BYR C4. 142), Levenberg-Marquardt @ # 4 — 4 ik (RAY HA 
望 调整 量 Aw 就 得 到 了 计算 。 

然而 ， 从 实际 的 角度 来 看 ， 式 (4. 145) 的 计算 复杂 度 是 需要 考虑 的 ， 尤 其 是 当权 值 向 量 w 
的 维 数 高 的 情况 下 ; 这 里 的 计算 困难 是 由 Hessian 矩阵 HCw) 的 复杂 性 引起 的 。 为 了 减轻 这 
困难 ， 推 荐 方法 是 忽略 式 (4. 145) 右 边 第 二 项 ， 因 此 简单 地 用 下 式 逼 近 Hessian 矩阵 : 


1 TIFAO; w I FAG); w) JT 
uw ~ >| as [2 xG »] (4. 146) 


这 个 逼近 可 以 看 成 是 偏 导数 BF(w,x(iD))V/aw 对 其 自身 的 外 积 在 训练 样本 上 的 平均 ;相应 地 
这 可 以 被 称 为 Hessian 抢 阵 的 外 积 逼 近 。 这 一 逼近 的 使 用 在 Levenberg-Marquardt 算法 运行 于 
局 部 或 全 局 最 小 点 附近 时 得 到 了 证 明 。 

显然 ， 基 于 式 (4. 144) 的 梯度 向 量 和 式 (4. 146) 的 Hessian 矩阵 的 Levenberg-Marquardt 算 
法 的 逼近 版 本 ， 是 非常 适用 于 非 线 性 最 小 二 乘 佑 计 问 题 最 优化 的 一 阶 方法 。 而 且 ， 由 于 这 些 方 
程 都 包含 了 在 训练 样本 上 的 平均 的 事实 ， 算法 属于 批量 方式 。 

正则 参数 4 在 Levenberg-Marquardt 算法 工作 过 程 中 起 决定 性 作用 。 如 果 设 4 等 于 0， 则 
式 (4. 142) 的 公式 简化 为 牛顿 法 。 另 一 方面 ， 如 果 给 4 分配 一 个 大 的 值 使 得 X41 远大 于 Hessian 
矩阵 HH 元素 的 值 ，Levenberg-Marquardt 算法 从 效果 上 作为 梯度 下 降 法 起 作用 。 根 据 这 两 个 观 
察 ， 在 算法 的 每 一 步 选 代 中 ， 分 配给 ) 的 值 就 需要 恰好 足够 大 到 保持 和 和 矩阵 (H 十 X41) 的 正定 
形式 。 具 体 来 说 ， 对 于 4 的 选择 我 们 推荐 如 下 的 Marquardt 方法 (Press 等 ，1988) : 

1. EERE n 一 1 HES. Cw). 

2. 选择 一 个 适度 的 4 值 ， 比 方 说 4 二 10 。 

3. 解 方程 (4. 142) 得 到 和 迭代 步 n 的 调整 量 Aw 和 评价 名 .Cw 十 Aw)。 

4. MRE. (Ww 十 AwW) 宇 €, (w)， 通 过 一 个 因子 10( 或 者 任意 其 他 大 因子 ) 来 增加 和 A， 转 第 
3 步 。 

5. AAW. MRE. (wt Aw) 二 名, (w)， 通 过 因子 10 降低 *， 更 新 试验 解 w 一 w 十 Aw， 
转 第 3 步 。 

由 于 明显 的 原因 ， 终 止 迭 代 过 程 的 规则 是 必需 的 。Press 等 (1998) 指出 ， 通 过 小 量 增加 
改变 志 ,(w) 的 参数 向 量 w 的 调整 从 来 都 不 是 统计 有 意义 的 。 因 此 可 以 利用 这 一 具 深 刻 见 解 的 评 
论 来 作为 终止 规则 的 基础 。 

作为 最 后 的 评论 : 为 了 在 算法 的 每 一 步 评 估 偏 导数 GF(x; w)/aw， 可 以 利用 4.8 节 描 述 
的 反 向 传播 的 方式 。 

在 线 学 习 的 二 阶 随 机 梯度 下 降 
到 目前 为 止 ， 本 节 集 中 于 批量 学 习 的 二 阶 最 优 技 术 。 从 这 里 开始 ， 我 们 将 注意 力 转移 到 在 


(4. 145) 
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线 学 习 的 二 阶 随机 梯度 下 降 方 法 来 。 尽 管 这 两 类 技术 是 根本 不 同 的 ， 但 它们 具有 一 个 共同 的 
目的 : 

代价 函数 的 Hessian 2 〈 曲 率 ) 所 包含 的 二 阶 信 息 被 用 来 提高 监督 学 习 算 法 的 性 能 。 

对 于 第 4. 10 节 所 考虑 的 最 优 退 火 在 线 学 习 算法 性 能 扩展 的 一 个 简单 途径 是 将 式 (4. 60) 中 


的 学 习 率 参数 y(n H Hessian 矩阵 H MRR BIRR. OOP Bm: 
1 








Wint+l) = Win) 一 TH g(x(2+ 1) .d(n+1);W(m)) (4. 147) 
+ L 1 ~ x 在 
更 新 估计 老 的 估计 Hessiant# MH 梯度 向 量 
的 逆 的 退火 


将 x) 用 新 的 项 浅 H-' 来 代替 是 为 了 加 速 最 优 退 火 方式 下 在 线 算法 的 收敛 速度 。 这 里 假设 


Hessian 矩阵 H 是 先 验 已 知 的 ， 其 逆 H :因此 可 以 预计 算 。 

“没有 免费 的 午餐 ”， 加 速 收 敛 所 付出 的 代价 总 结 如 下 CBottou, 2007): 

D 在 式 (4. 60) 的 随机 梯度 下 降 中 ， 算 法 每 步 迭 代 的 计算 花费 是 OC(W)， 这 里 W 是 被 估计 的 
权 值 向 量 w 的 维 数 ， 而 相应 地 式 (4. 147) 中 二 阶 随机 梯度 下 降 算 法 每 步 选 代 的 计算 代价 是 Ou). 

2) 对 于 由 式 (4. 147) 算 法 处 理 的 每 个 训练 样本 (x,d)， 算 法 需要 WX1 的 梯度 向 量 g 和 WXW 
的 逆 和 矩阵 HH ! 相 乘 ， 并 需要 存储 乘积 。 

3) 在 通常 情况 下 ， 当 训练 样本 中 存在 某 种 形式 的 稀 芯 性 时 ， 自 然 的 步骤 是 开发 这 种 稳 臣 
性 以 达到 改善 算法 性 能 的 目的 。 遗 憾 的 是 ，Hessian 和 矩阵 H 是 一 个 典型 的 全 矩阵 因此 不 是 稀 杖 
的 ， 这 就 排除 了 开发 训练 样本 稀 玻 性 的 可 能 。 

为 了 克服 这 些 局 限 性 ， 我 们 可 以 求助 于 如 下 适 近 过 程 中 的 一 种 : 

1) xt #83, (Becker and LeCun，1989) 。 在 这 一 过 程 中 ，Hessian 矩阵 仅 有 对 角 元 素 被 
保留 ， 这 意味 着 道 矩阵 H-! 同 样 也 是 对 角 和 矩阵 。 由 和 矩阵 理论 可 知 ， 和 矩阵 乘积 Hg 将 由 形式 为 
hi'g; 的 项 的 和 组 成 ， 其 中 hi 是 Hessian 矩阵 H 的 第 i 个 对 角 元 素 ，g; 是 相应 的 梯度 g 的 元 
素 , i 二 1,2,…,W。 MEME g 对 权 值 为 线性 的 ， 这 就 意味 着 逼近 二 阶 在 线 学 习 算法 的 计算 复 
杂 度 是 OW). 

2) (RAR, (LeCun 等 ，1998)。 根 据 定义 ， 和 矩阵 的 秩 等 于 矩阵 的 线性 无 关 列 的 个 数 。 
给 定 一 个 Hessian 矩阵 H, AAAA (SVD) 为 Hessian 矩阵 H 的 低 秩 逼 近 提 供 了 一 个 重要 
程序 。 令 HEKA po HEr BIRCH. EP r<p. #€ Hessian 矩阵 和 其 逼近 之 间 
的 平方 误差 通过 Frobenius 范 数 来 定义 : 


e = tH H,)7(H— H,) ] (4. 148) 
其 中 url] RATS POA ME RATRI. IEE HM H, 作 SVD, RNS A: 
H=V U" (4. 149) 
和 
H, = V)>),U" (4. 150) 
FREZER UM VE TTA A Ae 矩形 矩阵 
>) = diaglar saz ott A 10407 ,0 (4.151) 
me OT RPE H, 的 奇异 值 。 新 的 方 阵 
H, = UJ, V" (4. 152) 


提供 了 对 Hessian 4 RE HAR) — RA HUME (Scharf, 1991), 。 相 应 地 ， 在 式 (4. 147) 的 在 线 学 习 
算法 中 利用 新 矩阵 H, 来 代替 Hessian 矩阵 H 将 算法 的 计算 复杂 度 降 低 到 了 OCW) A OCW” ) 之 间 的 
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某 个 地 方 。 

3) BFGS i€3@: (Schraudolph 等 ，2007)。 正 如 本 节 前 面 所 指出 的 那样 ，BFGS 被 认为 是 
拟 牛 顿 法 的 最 好 形式 。 在 Schraudolph 等 的 2007 年 的 论文 中 ，BFGS 被 修改 为 全 记忆 和 有 限 记 
忆 版 本 ， 使 其 对 于 梯度 的 随机 逼近 变 得 可 用 。 这 一 修正 算法 为 在 线 凸 优化 提供 了 一 种 快速 、 可 
扩 缩 的 、 随 机 拟 牛 顿 过程 。 在 Yu 等 〈2008) 1, BSGF 拟 咎 顿 法 和 其 有 限 记 忆 变 形 被 扩展 用 
来 处 理 非 光 滑 凸 目 标 函数 。 


4.17 RANK 


到 目前 为 止 ， 我 们 都 在 考虑 多 层 感知 器 算法 设计 和 相关 的 问题 。 本 节 重 点 讨论 多 层 感知 器 
本 身 的 结构 布局 问题 。 特 别 地 ， 我 们 描述 一 类 特定 的 通称 为 卷 积 网 络 的 多 层 感 知 器 ， 它 对 于 模 
式 分 类 非常 适合 。 这 些 网 络 的 提出 所 隐 含 的 思想 受到 了 神经 生物 学 的 启发 ， 可 以 回 湖 到 Hubel 
and Wiesel(1962, 1977) 的 开创 性 研究 ， 该 研究 是 关于 猫 的 视觉 皮质 上 局 部 传 感 和 方位 选择 
神经 元 的 。 

一 个 卷 积 网 络 是 为 识别 二 维 形状 而 特殊 设计 的 一 个 多 层 感知 器 ， 这 种 二 维 形状 对 平移 、 比 
例 缩放 、 倾 斜 或 者 其 他 形式 的 变形 具有 高 度 不 变性 。 这 个 艰巨 的 任务 是 通过 如 下 网 络 在 监督 方 
式 下 学 会 的 ， 网 络 的 结构 包括 如 下 形式 的 约束 CLeCun and Bengio, 2003): 

1. 特征 提取 。 每 一 个 神经 元 从 上 一 层 的 局 部 接受 域 得 到 突 触 输 入 ， 因 而 迫使 它 提取 局 部 
特征 。 一 旦 一 个 特征 被 提取 出 来 ， 只 要 它 相 对 于 其 他 特征 的 位 置 被 近似 地 保留 下 来 ， 它 的 精确 
位 置 就 变 得 没有 那么 重要 了 。 

2. 特征 映射 。 网 络 的 每 一 个 计算 层 都 是 由 多 个 特征 映射 组 成 的 ， 每 个 特征 映射 都 是 平面 
形式 的 ,平面 中 单独 的 神经 元 在 约束 下 共享 相同 的 突 触 权 值 集 。 这 种 结构 约 东 的 第 二 种 形式 具 
有 如 下 的 有 益 效果 : 

。 平移 不 变性 ， 强 迫 特征 映射 的 执行 使 用 具有 小 尺度 核 的 卷 积 ， 下 接着 用 一 个 sigmoid 函数 。 

。 自由 参数 数量 的 缩减 ， 通 过 权 值 共享 实现 。 

3. 子 抽样 。 每 个 卷 积 层 跟 着 一 个 实现 局 部 平均 和 子 抽样 的 计算 层 ， 由 此 特征 映射 的 分 辨 
率 降 低 。 这 种 操作 具有 使 特征 映射 的 输出 对 平移 和 其 他 形式 的 变形 的 敏感 度 下 降 的 作用 。 

注意 ， 在 一 个 卷 积 网 络 所 有 层 中 的 所 有 权 值 都 是 通过 训练 来 学 习 的 。 此 外 ， 网 络 自动 地 学 
习 提 取 它 自身 的 特征 。 

图 4. 23 表明 由 一 个 输入 层 和 四 个 隐藏 层 与 一 个 输出 层 组 成 的 卷 积 网 络 的 体系 结构 布局 。 
这 个 网 络 被 设计 用 于 实现 图 像 处 理 〈 例 如 手写 体 的 识别 )。 输 入 层 由 28X28 个 感知 节点 组 成 ， 
接收 已 经 近似 处 于 中 心 位 置 和 在 大 小 上 规整 化 的 不 同 字 符 的 图 像 。 然 后 ， 计 算 流 程 在 眷 积 和 子 
抽样 之 间 交 蔡 ， 如 下 所 述 : 

1. 第 一 隐藏 层 进行 卷 积 。 它 由 四 个 特征 映射 组 成 ， 每 个 特征 映射 由 24 X24 个 神经 元 组 

成 。 每 个 神经 元 指定 一 个 5X5 的 接受 域 ; 

2. 第 二 隐藏 层 实现 子 抽样 和 局 部 平均 。 它 同样 由 四 个 特征 映射 组 成 ， 但 其 每 个 特征 映射 
由 12X12 个 神经 元 组 成 。 每 个 神经 元 具有 一 个 2X2 的 接受 域 ， 一 个 可 训练 系数 ， 一 个 可 训练 
偏 置 和 一 个 sigmoid 激活 函数 。 可 训练 系数 和 偏 置 控制 神经 元 的 操作 点 ; 例如 ， 如 果 系 数 很 
小 ， 该 神经 元 以 拟 线性 方式 操作 。 

3. 第 三 隐藏 层 进行 第 二 次 卷 积 。 它 由 12 个 特征 映射 组 成 ， 每 个 特征 映射 由 8X8 个 神经 
元 组 成 。 该 隐藏 层 中 的 每 个 神经 元 可 能 具有 和 上 一 个 隐藏 层 几 个 特征 映射 相连 的 突 触 连接 。 否 
则 ， 它 以 第 一 个 卷 积 层 相 似 的 方式 操作 。 

4. 第 四 个 隐藏 层 进行 第 二 次 子 抽样 和 局 部 平均 计算 。 它 由 12 个 特征 上 映射 组 成 ， 但 每 个 特 
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征 映射 由 4X4 个 神经 元 组 成 。 否 则 它 以 第 一 次 抽样 相似 的 方式 操作 。 

5. 输出 层 实现 卷 积 的 最 后 阶段 。 它 由 26 个 神经 元 组 成 ， 每 个 神经 元 指定 为 26 个 可 能 的 
字符 中 的 一 个 。 跟 前 面 一 样 ， 每 个 神经 元 指定 一 个 4X4 的 接受 域 。 

相继 的 计算 层 在 卷 积 和 抽样 之 间 的 连续 交 蔡 ， 我 们 得 到 一 个 “ 双 尖 塔 ”的 效果 。 也 就 是 在 
每 个 卷 积 或 抽样 层 ， 随 着 空间 分 辨 率 下 降 ， 与 相应 的 前 一 层 相 比特 征 映射 的 数量 增加 。 卷 积 
后 进行 子 抽样 的 思想 是 受到 Hubel 和 Wiesel(1962) 首先 提出 的 “简单 的 ”细胞 后 面 跟着 “ 复 
杂 的 ”细胞 “的 概念 启发 而 产生 的 。 

图 4. 23 所 示 的 多 层 感 知 器 包含 近似 100 000 个 突 触 连 接 ， 但 只 有 大 约 2 600 个 自由 参 
数 。 自 由 参数 在 数量 上 显著 减少 是 通过 权 值 共享 实现 的 。 机 器 学 习 的 能 力 因 而 下 降 ， 这 又 提 
高 了 它 的 泛 化 能 力 。 甚 至 更 值得 注意 的 事实 是 对 自由 参数 的 调整 通过 反 向 传播 学 习 的 随机 形 
式 来 实现 。 





输入 特征 映射 特征 映射 ”特征 映射 特征 映射 输出 
28 x 28 4@24 x 24 4@12x12 12@8x8 12@4x4 26@1 x 1 





图 4.23 用 于 图 像 处 理 如 手写 体 识 别 的 卷 积 网 络 (经 MIT 出 版 社 授权 ) 


另 一 个 显著 的 特点 是 使 用 权 值 共享 使 得 以 并 行 形式 实现 卷 积 网 络 成 为 可 能 。 这 是 卷 积 网 络 
对 完全 连接 的 多 层 感 知 器 而 言 的 男 一 个 优点 。 

从 图 4. 23 的 卷 积 网 络 中 收获 了 以 下 两 方面 经 验 。 首 先 ， 通过 结合 当前 任务 的 先 验 知识 约 
束 其 设计 ， 一 个 可 调整 大 小 的 多 层 感知 器 能 够 学 习 一 个 复杂 的 、 高 维 的 和 非 线 性 的 映射 。 其 
欠 ， 突 触 权 值 和 偏 置 水 平 可 以 周而复始 地 执行 通过 训练 集 的 简单 反 向 传播 算法 进行 学 习 。 


4.18 非 线性 滤波 


以 多 层 感 知 器 为 例 的 静态 神经 网 络 的 原型 应 用 是 结构 化 模式 识别 。 在 所 考虑 的 应 用 范围 
内 ， 本 章 所 讲述 的 素材 集中 于 结构 化 模式 识别 。 相 反 ， 时 序 模 式 识 别 或 非 线 性 滤波 要 求 对 随时 
间 演 化 的 模式 进行 处 理 ， 对 特定 时 刻 的 响应 不 仅 依赖 于 输入 的 当前 值 ， 还 依赖 于 以 前 的 值 。 简 
单 说 ， 时 间 是 有 序 的 量 ， 构 成 了 时 序 模 式 识别 任务 中 学 习 过 程 的 重要 成 分 。 

对 于 动态 神经 网 络 来 说 ， 它 必须 以 一 种 或 另 一 种 形式 给 定 短期 记忆 。 完 成 这 一 修改 的 一 个 
简单 途径 是 利用 时 间 延 迟 ， 时 间 延 迟 可 以 在 网 络 内 部 的 突 触 层 或 者 外 部 地 在 网 络 的 输入 层 上 执 
行 。 确 实 ， 神 经 网 络 中 时 间 延 迟 的 使 用 是 受 神经 生物 学 启发 的 ， 因 为 众所周知 在 大 脑 中 信号 延 
述 是 无 所 不 在 的 ， 且 在 神经 生物 信息 人 处理 中 起 着 重要 作用 (Braitenberg, 1967, 1977, 1986; 
Miller，1987) 。 时 间 可 以 通过 如 下 的 两 种 基本 途径 来 嵌入 神经 网 络 的 运行 中 : 

。 隐 式 表示 。 了 时 间 是 通过 其 作用 于 信号 处 理 的 效果 以 一 种 隐 含 方式 来 表示 的 。 例如， 在 

神经 网 络 的 数字 执行 中 ， 输 入 信号 经 过 一 致 采样 ， 和 网 络 输入 层 相连 的 每 个 神经 元 的 
突 触 权 值 序列 和 不 同 的 输入 样本 序列 作 卷 积 (convolved)。 这 样 ， 输 入 信号 的 时 间 结 
构 般 入 在 网 络 的 空间 结构 里 。 

。 显 式 表示 。 在 网 络 结构 内 时 间 由 它 自身 的 特定 表示 给 出 。 例 如 ， 蝙 蝠 的 回声 定位 系统 
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是 通过 发 射 短 的 频率 调制 (FM) 信号 ,使 得 对 于 每 个 限制 在 FM 扫描 期 间 的 很 短 的 一 
个 时 间 段 的 频道 维持 相同 的 强度 等 级 。 被 一 组 听觉 接收 器 编码 的 几 个 不 同 频率 之 间 的 
多 种 比较 是 为 了 抽取 目标 物 的 准确 的 距离 信息 (Suga and Kanwal, 1995), 4MA $R 
的 回声 在 经 一 段 未 知 时 延 以 后 被 接收 时 ， 一 个 具有 匹配 的 延迟 线 的 神经 元 〈 在 听觉 系 
统 ) 进行 响应 ， 从 而 提供 目标 范围 的 估计 值 。 

本 节 我 们 关心 时 间 的 隐 式 表达 ， 这 由 通过 外 部 方式 对 一 个 静态 神经 网 络 (如 多 层 感知 器 ) 
提供 动态 属性 而 得 到 。 

图 4. 24 显示 了 非 线性 滤波 器 的 框图 ， 它 由 
两 个 子 系统 的 层 释 连接 组 成 : 短期 记忆 和 静态 ” 答 ee Y Bs 
神经 网 络 (如 多 层 感知 器 )。 这 一 结构 对 于 处 A - 
理 规则 提供 了 明确 的 分 割 ， 静态 网 络 对 应 于 非 (>) 
线性 ， 记 忆 对 应 于 时 间 。 具 体 来 说 ， 假 设 给 定 误差 信号 
了 具有 大小 为 m 的 输入 层 的 多 层 感 知 器 。 那 
么 ， 在 一 个 对 应 的 途径 下 ， 记 忆 是 一 个 单 输 入 a(n) 
多 输出 〈SIMO) 的 结构 ， 提 供 对 模拟 神经 网 图 4.24 建立 在 静态 神经 网 络 上 的 非 线性 滤波 
络 的 输入 信号 的 m 个 不 同 延 迟 版 本 。 
短期 记忆 结构 

图 4. 25 显示 了 离散 时 间 记忆 结构 的 框图 ， 它 由 户 个 等 同 片断 层 友 连接 。 每 一 个 片 斯 由 一 
个 脉冲 响应 来 描述 ， 记 为 h(n)， 其 中 记 为 离散 时 间 。 片 断 数 p 称 为 记忆 的 阶 。 相 应 地 ， 由 
记忆 提供 的 输出 终端 个 数 〈 即 抽 头 (tap)) 为 p 十 1， 这 包含 了 从 输入 到 输出 的 直接 连接 。 因 
此 ， 用 m 记 静 态 神经 网 络 输入 层 的 大 小 ， 我 们 有 

m=pt+l 

记忆 的 每 一 个 延迟 片断 的 脉冲 响应 满足 两 个 性 质 ， 

。 因果 关系 ， 这 意味 着 对 于 nn 二 0 有 h(n) 为 零 。 

. a, KERR J) [AG | 一 1 

在 这 个 基础 上 ， 我 们 将 h(n) 称 为 离散 时 间 记 忆 的 产生 核 。 











单元 1 单元 2 单元 p 
\ + pi 
输出 终端 


图 4.25 p 阶 一 般 抽 头 延迟 线 记忆 


可 以 用 深度 和 分 辩 率 来 衡量 记忆 结构 的 属性 (deVries and Principe，1992)。 设 记忆 结构 
中 总 的 脉冲 响应 为 howwra (nn)。 具 有 个 记忆 片断 ， 因 此 hoeri MELK AMH p TEKER. 
相应 地 ， 记 忆 深 度 记 为 D， BMW hoen (FA, RRA 


D = > rhoma (0) (4. 153) 


一 个 低 深 度 D 的 记忆 只 能 将 信息 内 容 保持 较 短 的 时 间 ， 而 高 深度 的 记忆 则 能 保持 较 长 时 
间 。 记 忆 分 辩 率 记 为 尺 ， 指 的 是 每 个 单位 时 间 内 记忆 结构 中 的 抽 头 数目 。 一 个 高 分 辩 率 的 记忆 
结构 能 将 输入 的 序列 信息 保持 在 精确 的 层次 上 ， 而 低 分 辩 率 的 记忆 结构 只 能 保持 在 粗糙 的 层次 
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上 。 对 于 国定 的 记忆 阶 p, WERE D 和 记忆 分 辨 率 R 的 乘积 是 一 个 常量 并 证 明 等 于 p. 
自然 ， 选 择 不 同 的 产生 核 hn) 会 产生 不 同 的 深度 D 和 记忆 分 辩 率 R， 这 可 以 用 下 面 两 个 
记忆 结构 来 说 明 。 
1. 抽 头 延迟 线 记 忆 (tapped-delay-line memory)， 对 它 而 言 ， 产 生 核 被 简单 定义 为 单位 脉 
六 eCa), Bp 


hin) = dn) = D =0 (4. 154) 
Osn 天 0 
对 应 地 ， 总 的 脉冲 响应 是 
hoera (n) = dn— p) = D =? (4.155) 
One p 


将 式 (4. 155) 代 人 式 (4. 153)， 产 生 记 忆 深度 D 一 p， 这 一 点 直观 上 是 满足 的 。 而 且 ， 每 个 时 间 
单元 内 只 有 一 个 抽 头 ， 因 此 ， 分辨 率 R= 二 1， 深度 一 分 辩 率 积 就 等 于 p。 
2. Gamma 记忆 ， 对 于 它 产 生 核 被 定义 为 

h(n) = pl "Tn 1 (4. 156) 
其 中 jy 是 一 个 可 调 参 数 (deVries and Principe，1992)。 为 了 h(n) 能 够 收 化 〈( 即 为 了 短期 记忆 
能 够 稳定 )， 我 们 需要 

O<p<2 

相应 地 ，Gamma 记忆 的 完整 的 脉冲 响应 为 


hoven (0) 一 Gia -nS p (4. 157) 


其 中 (:) 是 一 个 二 项 式 系数 。 对 于 变化 的 p 的 脉冲 响应 hoca ORAT gamma 函数 的 被 积 函 数 的 


离散 版 本 (deVries and Principe, 1992) 一 一 因此 命名 为 “gamma 记忆 ”图 4.26 mih TX JG 
一 后 脉冲 响应 hovi (nn) 对 于 变化 的 记忆 阶 的 图 ， 二 0.7。 还 要 注意 的 是 时 间 轴 已 乡 到 被 参数 u Sr 
度 ， 这 种 标 度 具有 将 hoveri (2) 的 峰值 定位 在 n= p—1 的 效果 。 


l 


0.8 


0.2 H 











图 4.26 Xf p= 1,2,3,4 和 jy 一 0.7 的 gamma 记忆 的 脉冲 响应 族 


已 经 证 明 Gamma 记忆 的 深度 为 p/x， 分 辩 率 为 xu， 再 一 次 深度 一 分 辩 率 的 乘积 为 po HA 
地 ， 通 过 选择 小 于 单位 1 的 py 值 ，Gamma 记忆 的 深度 有 所 提高 ,但 是 辆 牲 了 分 辨 率 。 对 于 特 
例 y= 二 1，Gamma 记忆 衰减 为 通常 的 抽 头 延迟 线 记 忆 ， 那 里 每 个 片断 简单 地 由 一 个 单位 时 间 延 
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RA FAM. 
通用 短视 映射 定理 
图 4. 24 中 的 非 线性 滤波 器 可 以 推广 为 图 4. 27 所 示 的 滤波 器 。 这 个 一 般 的 动态 结构 包含 两 
个 功能 模块 。 标 号 为 { 态 ) 广 :的 模块 表示 时 域 的 多 重 卷 积 ， 即 ， 一 个 并 行 运行 的 线性 滤波 器 组 。 
h 是 从 一 个 较 大 的 实 值 核 集合 中 抽取 出 来 的 ， 每 一 个 都 代表 一 个 线性 滤波 器 的 脉冲 响应 。 块 
标号 为 的 模块 表示 静态 的 〈 即 无 记忆 的 ) 非 线性 前 馈 网 络 ， 如 多 层 感 知 器 。 图 4. 27 中 的 结 
侈 是 一 个 通用 动态 上 映射 器 (universal dynamic mapper)。 在 Sandberg and Xu(1997a) 中 证 明 对 
于 任何 平移 不 变 的 短视 映射 (myopic map)， 在 适 
度 的 条 件 下 利用 图 4. 27 描绘 的 结构 能 够 以 任意 精 
度 一 致 逼近。 要 求 一 个 映射 为 短视 的 等 价 于 “一 致 
衰减 记忆 ” 这 里 假设 映射 是 因果 的 (causal)， 这 
BARA AA n=O 时 应 用 输入 信号 ， 才 能 在 时 刻 
n 宇 0 由 映射 产生 输出 信号 。 通 过 “平移 不 变 ”， 我 
们 是 指 如 果 y(n) 是 由 输入 zx(n) 产 生 的 映射 的 输出 ， 





那么 对 于 平移 输入 x 一 m6) 产 生 的 映射 的 输出 就 是 a SR, 
y(n 一 no)， 这 里 时 间 位 移 m 是 一 个 整数 。Sandberg (线性 滤波 ) ”网 络 


and Xu(1997b) 中 进一步 证 明了 对 单 变量 的 、 平移 图 4. 27 通用 短视 映射 定理 的 一 般 结构 
不 变 的 、 因 果 的 和 一 致 衰减 的 记忆 映射 ， 存在 一 个 
Gamma 记忆 和 静态 神经 网 络 ， 它 们 的 组 合 能 够 以 任意 精度 一 致 逼近 该 映射 。 

现在 可 以 正式 地 将 通用 短视 映射 定理 "描述 如 下 (Sandberg and Xu, 1997a, 1997b): 


任何 平移 不 变 的 短视 动态 映射 可 以 由 含有 两 个 功能 块 的 结构 任意 地 一 致 逼近: 一 组 线性 滤 
波 器 馈 给 一 个 静态 神经 网 络 。 


正如 已 经 指出 的 那样 ， 多 层 感 知 器 可 以 作为 静态 网 络 的 规则 。 值 得 注意 的 是 当 输入 输出 信 
号 是 固定 变量 数 的 函数 时 定理 得 到 保持 ， 例 如 在 图 像 处 理 中 。 
定理 的 实际 含义 

这 个 定理 具有 深厚 的 实际 含义 : 

1. 这 个 定理 为 NETtalk 提供 了 证 明 。NETtalk 是 将 英语 语音 转化 为 音素 的 大 规模 并 行 分 
布 式 网 络 的 第 一 个 示范 。 音 素 (phoneme) 是 一 个 基本 的 语言 单位 CSejnowski and Rosen- 
berg，1987)。 图 4. 28 显示 了 一 个 NETtalk 系统 的 示意 图 ， 它 建立 在 一 个 多 层 感知 器 的 基础 
E. 输入 层 有 203 个 感知 CR) 节点 ， 隐 藏 层 有 80 个 神经 元 ， 输 出 层 有 26 个 神经 元 。 所 有 神 
经 元 都 使 用 sigmoid(logistic) 型 激活 函数 。 这 个 网 络 的 突 触 连接 有 18 629 个 ， 每 个 神经 元 包 
含有 可 变 的 阅 值 。 阅 值 是 偏 置 的 负 值 。 这 个 网 络 使 用 标准 的 反 向 传播 算法 进行 训练 。 这 个 网 络 
有 7 组 输入 层 节点 。 每 组 对 输入 文本 的 1 个 字母 进行 编码 。 从 而 每 次 将 7 个 字母 组 成 的 串 呈 现 
给 输入 层 。 训 练 过 程 的 期 望 响应 是 和 ?7 个 字母 窗口 中 央 的 一 个 《〈 即 第 4 个) 相 联 系 的 正确 音 
素 。 另 外 6 个 字母 (在 中 间 字 母 两 边 各 3 个 ) 对 网 络 的 每 一 个 决策 来 说 提供 部 分 的 上 下 文 。 通 
过 一 个 字母 接着 一 个 字母 的 方式 使 文本 通过 窗口 。 在 处 理 的 每 一 步 中 ， 网 络 都 计算 一 个 音素 ， 
每 学 完 一 个 单词 后 ， 网 络 的 突 触 权 值 就 根据 计算 出 的 发 音 与 正确 的 发 音 的 接近 程度 进行 调整 。 
NETtalk 的 性 能 显示 出 和 观察 到 的 人 类 表现 的 相似 之 处 ， 可 总 结 为 以 下 几 点 (Sejnowski and 
Rosenberg, 1987): 
。 训练 遵守 有 力 的 规律 (power law). 
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。 网 络 学 习 的 单词 越 多 ， 它 的 泛 化 性 能 和 对 新 词 正确 发 音 的 性 能 就 越 好 。 

。 当 网 络 的 突 触 连 接 被 破坏 时 ， 网 络 性 能 的 下 降 非 常 缓慢 。 

。 在 网 络 遭 到 破坏 以 后 ， 进 行 重新 学 习 ， 学 习 的 速度 要 比 原始 训练 快 得 多 。 

NETtalk 出 色 地 说 明了 学 习 的 很 多 方面 的 微小 细节 ， 在 开始 的 时 候 ， 在 它 的 输入 模式 中 具有 大 
量 “ 先 天 ”的 知识 并 且 通 过 实践 逐渐 获得 将 英语 语音 转化 为 音素 的 能 力 。 





教师 
Iki 
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图 4.28 NETtalk 网 络 结构 的 示意 图 


2. 通用 短视 定理 为 更 复杂 的 非 线 性 系统 模型 的 设计 建立 框架 。 在 图 4. 27 结构 前 端的 多 个 
卷 积 可 以 使 用 具有 有 限 冲 激 响 应 (FIR) 或 者 无 限 冲 激 响 应 〈IIR) 的 线性 滤波 器 来 实现 。 更 重 
要 的 是 ， 图 4. 27 的 结构 是 固有 稳定 的 (inherently stable) ， 因 此 线性 滤波 器 自身 是 稳定 的 。 因 
此 ， 在 建立 稳定 动态 系统 时 对 于 如 何 处 理 短期 记忆 和 无 记忆 非 线 性 性 ， 我 们 对 它们 的 作用 有 清 
晰 的 分 工 。 

3. 给 定 稳定 的 时 间 序 列 z(1),z(2)，…,z(z)， 通 过 设 yo =z(nt+ 1), AWA 4. 27 
的 通用 短视 映射 结构 来 建造 潜在 的 非 线 性 物理 规律 的 预测 模型 ， 该 模型 用 于 时 间 序 列 的 生成 ， 
而 不 管 规律 是 多 么 复杂 。 事实 上 ， 未 来 的 样本 cot) 起 着 期 望 响应 的 作用 。 当 用 一 个 多 层 
感知 器 作为 图 4. 27 的 静态 网 络 来 实现 这 一 应 用 时 ， 为 网 络 的 输出 单元 提供 线性 神经 元 是 明智 
的 。 这 将 保证 在 预测 模型 的 动态 范围 上 没有 振幅 的 局 限 。 


4. 19 小 规模 和 大 规模 学 习 问题 


在 本 章 和 本 书 其 他 地 方 ， 我 们 已 经 多 次 提 及 小 规模 和 大 规模 学 习 问 题 。 然 而 ， 我 们 没有 严 
格 地 详细 说 明 这 两 类 监督 学 习 的 意义 。 本 节 的 目的 是 突出 将 两 者 区 分 开 的 统计 和 计算 方面 的 
论点 。 
结构 风险 最 小 化 

监督 学 习 的 可 行 性 依赖 于 下 面 的 关键 问题 : 

由 NN 个 独立 同 分 布 的 样本 

(x, sdi)» (Xz sd), "t, (Xn dn) 

组 成 的 训练 样本 是 和 否 包 含 了 构造 具有 良好 泛 化 性 能 的 机 器 学 习 的 足够 信息 ? 

这 一 基本 问题 的 答案 在 于 Vapnik(1982, 1998) 所 描述 的 结构 风险 最 小 化 (structural risk 
minimization) 方法 。 

为 了 讲述 这 一 方法 的 意义 ， 令 产生 训练 样本 的 自然 源 或 者 环境 表示 为 非 线性 回归 模型 

d= f(x) +e (4. 158) 

其 中 ， 和 第 2 章 中 引入 的 术语 一 样 ， 向 量 x 是 回归 量 ,标量 4 是 响应 ，e 是 解释 〈 模 型 ) 误差 。 函 数 
了 是 未 知 的 ， 目 标 是 估计 它 。 为 了 实现 这 个 估计 ， 我 们 定义 期 望 风 险 〈 即 总 体 -平均 代价 函数 ) 为 : 
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Deus f) 一 E| $d — fo)? | (4. 159) 
其 中 期 望 是 对 于 回归 量 一 响应 对 (x，d》 联合 完成 的 。 在 第 5 章 ， 我 们 将 证 明 条 件 均 值 估 计 
È = d}x] (4. 160) 


是 代价 函数 Jaa (了) 的 最 小 点 。 相 应 地 ， 将 式 (4.159) 定 义 的 代价 函数 的 最 小 值 写 为 Jaa A); 
它 可 作为 能 达到 的 绝对 最 优 (absolute optimumy 。 

决定 条 件 均值 估计 六 需要 回归 量 x 和 响应 d 的 潜在 的 联合 概率 分 布 知识 。 然而， 我们 发 
现 这 一 知识 是 无 法 提供 的 。 为 了 解决 这 一 困难 ， 我 们 转向 机 器 学 习 来 寻找 可 行 的 解 。 例 如 ， 假 
设 选 择 单 层 多 层 感 知 器 来 做 机 器 学 习 。 令 函数 F(x;w) 记 为 神经 网 络 的 输入 输出 关系 ， 神 经 网 
络 的 参数 是 权 值 向 量 w。 然 后 通过 设 

f(x) = F(x;w) (4.161) 

来 做 第 一 个 还 近 (first approximation). 


相应 地 ， 将 模型 的 代价 聘 数 公式 化 为 : 
Jw) = tee] 2d — Faw | (4. 162) 


其 中 ， 如 前 所 述 ， 期 望 是 联合 地 在 对 xd) 上 完成 的 。 这 第 二 个 代价 函数 和 属于 原始 源 的 代 
价 函 数 J aw( 了 有 本质 上 是 不 同 的 一 一 因此 对 它们 使 用 了 不 同 的 记号 。 将 式 (4.161) 的 等 式 应 用 
于 神经 网 络 ， 我 们 从 效果 上 限制 了 逼近 函数 Faw 的 选择 。 


令 


w* = arg minJ (w) (4. 163) 

为 代价 函数 JKw) 的 最 小 值 。 然 而 ， 实 际 上 甚至 即使 我 们 能 找到 最 小 值 镶 ' ， 有 很 大 可 能 结果 代 
WAR JOA ) 将 比 最 小 化 代价 函数 Ja( 广 ) 更 坏 ， 我 们 可 以 写 为 ， 

TOW") > Jaa F) (4. 164) 

遗 乌 的 是 ， 我 们 仍然 面 对 如 前 所 述 的 同样 的 实际 问题 ， 即 不 知道 (x, 4》 的 内 在 联合 概率 

分 布 。 为 了 缓和 这 一 困难 ， 我 们 通过 利用 实验 风险 (即时 间 平 均 能 量 函 数 ) 来 做 第 二 个 逼近 


(second approximation) 


Ea NW = gay) UD — Fn) yw)?" (4. 165) 
其 最 小 点 定义 为 
Wy = arg min Sy (N;w) (4. 166) 
显然 ， 最 小 化 代价 函数 J WIRD IO), BEE, ARK: 
Ty) > TOW) > Jaa l f) (4. 167) 


有 了 已 经 做 出 的 两 个 逼近 ， 我 们 可 以 惊讶 于 为 什么 我 们 需要 精确 计算 最 小 值 Ww 。 在 解决 
这 一 问题 之 前 ， 让 我 们 检查 一 下 当 示 例 的 多 层 感知 器 的 隐藏 层 大 小 变 大 时 会 发 生 什 么 情况 。 

回顾 一 下 第 4. 12 节 ， 多 层 感知 器 是 未 知 函 数 fCx) 的 通用 逼近 器 。 从 理论 上 ， 当 隐藏 层 大 小 
足够 大 时 ， 参 数 函 数 F(x;w) 能 以 任意 期 望 精度 逼近 未 知 函数 f(x)。 这 反 过 来 意味 着 JW EG 
接近 于 绝对 最 优 Ju( 产 )。 然 而 ， 通 过 放大 隐藏 层 大 小 ， 我 们 可 能 连累 多 层 感知 器 的 泛 化 能 
力 。 特 别 地 ， 作 为 放大 隐藏 层 的 结构 ， 误 差 CTW") 一 Ju CF) 有 可 能 增加 。 除 非 训练 样本 
大 小 相应 地 增加 。 刚 刚 讨论 的 问题 是 Vapnik 结构 风险 最 小 化 的 本 质 内 容 ， 它 证 明了 “逼近 一 佑 
计 折 中 ”。 

为 了 详细 说 明 这 种 折 中 ， 令 过 剩 误差 JO Sea fD 分 解 为 如 下 两 项 : 
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FW) — Jana F) = Fw) — SOW) AI WY = aa Cf") (4. 168) 
WARE BURL 估计 误差 
在 这 一 经 典 的 误差 分 解 中 ， 以 下 几 点 是 值得 注意 的 : 

四 通 近 误差 提供 了 一 种 性 能 损失 的 度量 ， 该 损失 是 使 用 了 预 设 大 小 为 N 的 训练 样本 而 导 
SY. MA. BPW 依赖 于 训练 样本 ， 逼 近 误 差 就 和 网 络 训练 的 评估 相关 。 

四 估计 误差 提供 了 一 种 性 能 损失 的 度量 ， 该 损失 是 选择 由 逼近 函数 Pow) 刻画 的 模型 导 
致 的 。 而且， 由 于 A 是 给 定 回归 量 x 时 响应 d 的 条 件 估 计 ， 因 此 估计 误差 和 网 络 测试 的 评 信 
相关 。 

在 Vapnik 的 理论 框架 中 ， 逼 近 和 估计 误 关 是 通过 VC 维 数 来 公式 化 的 ，VC 维 数 通 常 记 为 
h. 这 一 新 的 参数 ， 是 Vapnik-Chervonenkis dimension 的 缩写 (Vapnik and Chervonenkis, 
1971)， 是 关于 用 机 器 学 习 实 现 的 二 值 分 类 函数 族 的 容量 或 者 表达 能 力 的 测量 " 。 对 于 单 层 多 
层 感知 器 的 例子 ，VC 维 数 是 由 隐藏 层 的 大 小 决定 的 ; BAUR BA, VC ERA 也 越 大 。 

为 了 将 Vapnik 理论 在 实际 背景 下 应 用 ， 考 虑 一 族 租 套 副 近 网 络 函 数 

F, = {F(x;w)(w E W)}, k=1,2,,K (4. 169) 





使 得 我 们 有 
Fi CF, C+ C Fk 
其 中 记号 生意 为 “包含 ”。 相 应 地 ， 多 的 各 个 子 集 的 VC 维 数 满足 条 件 
hy <h: <7 < he 
AARE, F 的 大 小 是 机 器 容量 的 测量 。 从 现在 开始 ， 我 们 利用 式 (4. 169) 的 定义 来 代替 VC 维 数 。 
图 4. 29 是 逼近 和 估计 误差 关于 通 近 网 络 天 
BRS. 的 大 小 KK 的 图 。 对 于 单 层 多 层 感知 器 的 ”误差 
例子 ， 隐 藏 民 的 最 优 大 小 是 由 逼近 误差 和 估计 
误差 假设 具有 共同 值 的 点 来 决定 的 。 在 这 一 最 
优 条 件 达 到 之 前 ， 学 习 问 题 是 超 定 的 《overde- 
termined) ， 这 意味 着 机 器 容量 对 于 包含 在 训练 


估计 误差 












样本 中 的 细节 数量 而 言 太 小 。 在 最 小 点 之 外 ， RE 
学 习 问 题 称 为 欠 定 的 (underdetermined)， 这 意 0 最 优 条 件 

味 着 对 于 训练 样本 而 言 机 器 容量 太 大 。 IDE A BK ADK 

计算 考虑 图 4.29 随 大 小 K 的 变化 逼近 和 估计 误差 的 变化 


神经 网 络 模型 〈 例 如 单 层 多 层 感知 器 ) 必须 是 可 控 变 量 ,， 使 得 它 能 够 被 自由 地 调整 以 达到 
对 从 未 出 现 过 的 数据 的 最 好 测试 性 能 。 另 一 个 可 控 变量 是 用 于 训练 的 样本 个 数 。 为 了 增加 监督 
训练 过 程 的 实际 真实 性 ，Bottou(2007) 通过 考虑 一 个 新 的 可 控 变 量 来 介绍 计算 代价 。 这 个 新 
的 可 控 变量 就 是 最 优 精确 度 。 

在 实际 中 ， 计 算 最 小 值 W, 的 任务 可 能 会 产生 很 大 开销 。 而 且 ， 在 满意 的 网 络 设计 讨论 的 
进程 中 ， 我 们 通常 做 多 个 逼近 。 然 后 ， 假 设 我 们 选 定 一 个 由 权 值 向 量 w 刻画 的 网 络 模型 ， 它 
和 Wn 不 同 ;这样 做 ， 我 们 将 给 出 第 三 个 ， 也 是 最 后 一 个 逼近 。 例 如 ， 由 于 计算 时 间 的 限制 ， 
在 线 学 习 算法 可 以 在 收敛 远 未 到 达 之 前 终止 。 在 多 数 情形 下 ，ww 是 满足 下 述 条 件 的 次 优 解 : 

Ca Ni Wx) <a N3 Wr) + p (4.170) 
其 中 po 组 成 了 一 个 新 的 可 控 参 数 ; 它 提供 了 对 于 计算 精确 度 的 测量 。 

受 这 一 实例 的 启发 ， 现 在 我 们 有 了 一 个 比 结构 风险 最 小 化 方法 遇 到 的 更 复杂 的 问题 。 具 体 

地 说 ， 现 在 必须 调整 三 个 变量 : 
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。 网 络 模型 〈 例 如 ， 多 层 感 知 器 中 隐藏 神 经 元 个 数 ) 。 

。 训练 样本 个 数 。 

。 最 优 精确 度 ( 例 如， 过 早 地 终止 对 最 小 值 Ws 的 计算 并 选 定 次 优 解 Wn)。 

为 了 达到 最 好 的 测试 性 能 ， 必 须 满足 预算 约 来 ， 这 定义 了 能 用 的 最 大 训练 样本 个 数 以 及 我 们 
能 提供 的 最 大 计算 时 间 。 在 实际 的 背景 下 ,我们 因此 面 对 相当 复杂 的 折 中 。 为 了 解决 这 一 约束 最 
优 问题 ， 折 中 将 依赖 于 我 们 是 否 首先 达到 样本 数量 的 限制 或 者 计算 时 间 的 限制 。 这 两 个 限制 的 折 
中 是 主动 预算 约束 ， 依 赖 于 监督 学 习 过 程 是 小 规模 的 还 是 大 规模 的 ， 如 我 们 下 面 要 讨论 的 那样 。 
定义 

根据 Bottou(2007)， 小 规模 和 大 规模 问题 可 以 分 别 定义 如 下 : 

ZAI. 小 规模 学 习 

一 个 监督 学 习 问 题 称 为 小 规模 的 ， 此 时 训练 样本 的 大 小 〈 即 样本 的 个 数 ) 是 强加 于 学 习 六 
程 的 主动 预算 约束 。 

定义 全 .大 规模 学 习 

一 个 监督 学 习 问 题 称 为 大 规模 的 ， 此 时 计算 时 间 是 强加 于 学 习 过 程 的 主动 预算 约束 。 

换 句 话说， 主动 预算 约束 《〈active budget constraint) 将 两 个 学 习 问 题 区 别 开 。 

作为 说 明 小 规模 学 习 问 题 的 一 个 例子 ， 我们 可 以 给 出 自 适 应 平衡 装置 (adaptive equalizer) 
的 设计 ， 甚 目的 是 为 了 补偿 不 可 避免 的 在 信道 传输 过 程 中 信息 数据 的 失真 。 起 源 于 随机 梯度 下 
降 并 在 第 3 章 中 讨论 过 的 LMS 算法 被 广泛 应 用 于 解 这 一 在 线 学 习 问 题 (Haykin，2002)。 

作为 说 明 大 规模 学 习 问 题 的 一 个 例子 ， 我 们 可 以 给 出 支票 读 取 机 的 设计 ， 其 训练 样本 是 由 联 
合 对 组 成 的 ， 每 个 样本 描述 一 个 特定 的 《图像 ， 数 额 } 对 ， 其 中 “图 像 ”是 关于 支票 的 而 数额 是 
关于 支票 上 钱 的 数量 的 。 这 样 的 学 习 问 题 由 于 如 下 几 点 具有 复杂 的 强 结 构 (Bottou, 2007): 

。 区 域 分 割 

。 文字 分 割 

。 文字 识别 

。 句法 解释 

4. 17 节 介 绍 的 包含 可 微 单元 的 卷 积 网 络 ， 通 过 几 个 星期 的 随机 梯度 算法 的 训练 ， 被 广泛 
用 于 解 这 一 挑战 性 学 习 问 题 (LeCun 等 ，1998) 。 事 实 上 ， 这 一 新 型 网 络 已 经 从 1996 年 开始 在 
工业 界 广泛 应 用 ， 处 理 数 十 亿 支票 。 
小 规模 学 习 问 题 

只 考虑 小 规模 学 习 问 题 时 ， 机 器 学 习 的 设计 者 可 以 得 到 以 下 三 个 变量 ， 

。 训练 样本 个 数 ，N 

。 逼近 网 络 函 数 族 下 的 容许 大 小 天 

© 式 (4. 170) 引 入 的 计算 误差 p 

当主 动 预算 约束 是 样本 个 数 时 ， 第 一 种 学 习 问 题 的 设计 选择 如 下 所 述 CBottou, 2007): 

。 通过 使 得 N 大 到 预算 允许 的 最 大 来 减少 估计 误差 。 

。 通过 令 计 算 误 差 o 一 0 来 减少 最 优化 误差 ， 这 意味 着 令 ww 一 Wn。 

。 调整 多 的 大 小 到 认为 是 合理 的 程度 。 

“4 o=0 时 ， 如 图 4. 29 所 示 的 包括 逼近 估计 折 中 的 结构 风险 最 小 化 方法 ， 对 于 处 理 小 规模 
学 习 问 题 是 足够 的 。 
大 规模 学 习 问题 

正如 前 面 所 指出 的 那样 ， 大 规模 问题 的 主动 预算 约束 是 计算 时 间 。 在 处 理 这 第 二 类 学 习 问 
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题 时 ， 我 们 面 对 更 复杂 的 折 中 ， 因 为 现在 必须 对 计算 时 间 TAR. 
EAMES HAH, RRB BH J Wn) Jana D 定义 的 ， 它 可 以 分 解 为 如 
下 的 三 项 CBottou, 2007), 
J Wy) = Jea (f°) = J we) ~J An) +I Cw) — FWY AT OW" = Jaa CE) 
过 剩 误差 最 优化 误差 BRE 估计 误差 





(4,171) 
最 后 的 两 项 组 成 了 通 近 误差 和 估计 误差 ， 对 小 规模 和 大 规模 学 习 问 题 都 是 通常 存在 的 。 正 是 式 
(4. 171) 的 第 一 项 将 大 规模 学 习 问 题 和 小 规模 学 习 问 题 区 别 开 来 。 这 一 新 的 称 为 最 优化 误差 的 
项 显然 和 计算 误差 p。 相关 。 

图 4. 29 中 逼近 误差 边界 的 计算 对 于 小 规模 问题 来 说 是 很 好 理解 的 〈 利 用 VC 理论 ) R 
的 是 ， 当 这 一 公式 用 于 大 规模 学 习 问题 时 ， 包 含 在 公式 中 对 边界 的 约束 是 很 不 好 理解 的 。 在 这 
些 更 困难 的 情形 下 ， 用 收敛 速率 而 不 是 边界 对 式 (4. 171) 进 行 分 析 是 更 富有 成 效 的 。 

要 求 对 式 (4. 171) 中 的 三 项 的 和 通过 调整 如 下 可 提供 变量 来 最 小 化 : 

。 样本 个 数 ，N。 

。 逼近 网 络 函 数 Gx 的 容许 大 小 开 。 

。 计算 误差 o， 它 不 再 是 0。 

做 这 样 的 最 小 化 分 析 是 极为 困难 的 ， 因 为 计算 时 间 工 实际 上 依赖 于 所 有 三 个 变量 N, FA o 
为 了 解释 这 一 依赖 性 ， 我 们 给 误差 p 分 配 一 个 小 的 值 来 减少 最 优化 误差 。 为 了 实现 这 一 减少 ， 遗 忙 
的 是 ， 我 们 必须 增加 N，g 或 两 者 ， 它 们 中 的 任 一 个 都 将 具有 对 逼近 和 估计 误差 的 不 良 影响 。 

昌 然 如 此 ， 在 某 些 情 形 下 ， 可 能 计算 好 的 最 优化 算法 〔 超 线性 )， 

X o 下降 上 且 凶 和 NN 都 上 升 时 三 个 误差 倾向 。 lose 对 此 2 下 降 得 比 cxp KT) tk 

于 下 降 的 指数 。 类 似 地 ， 也 可 以 计算 当 p 中 等 的 最 优化 算法 CRTE), 

下 降 且 F 和 NN R EIRIANET EAR wa 相公 
指数 。 将 这 些 片断 放 到 一 起 ， 就 有 了 应 付 。 设置 
大 规模 学 习 问题 折 中 的 逼近 解 的 元 素 。 更 

重要 的 是 ， 在 最 后 的 分 析 中 ， 折 中 依赖 于 

最 优化 算法 的 选择 。 

图 4. 30 给 出 了 对 大 规模 学 习 问 题 ， 
采用 不 同 最 优化 算法 ，logp 随 着 logT 的 图 4. 30 计算 误差 p 和 计算 时 间 了 的 变化 图 ， 对 三 类 最 优 







坏 的 最 优化 算法 ， 
对 此 p 下 降 和 17 相 候 


























变化 曲线 。 这 个 图 中 给 出 了 三 类 最 优化 化 算法 : 坏 的 、 中 等 的 、 好 的 (这 个 图 的 复制 得 
算法 ( 即 坏 的 、 中 等 的 、 好 的 ) 例子 ， 相 到 了 Dr. Leon Bottou 的 同意 ) 
应 地 这 些 算法 包含 了 随机 梯度 下 降 〈 即 在 表 4.4 三 种 最 优化 算法 统计 特性 的 小 结 ” 
线 学 习 )、 梯 度 下 降 〈 即 批量 学 习 ) 、 二 阶 算法 每 次 迭代 的 代价 ANA p 的 时 间 
MRE KW (EI BFGS 类 或 其 扩展 的 拟 牛 顿 。 1 随机 梯度 下 降 | oo of 2 
(在 线 学 习 ) o 
最 优化 算法 ) 。 表 4.4 总 结 了 这 三 类 最 优 一 一 | 
化 算法 之 间 的 不 同 特征 。 | ocvm of tog +.) 
现在 我 们 可 以 总 结 从 本 节 中 给 出 的 次 - + L 
料 中 得 到 的 关于 监督 学 习 的 消息 如 下 : eae ETM | Onmin» | o(ioe( toe 7) ) 
小 规模 学 习 问 题 的 研究 已 经 有 了 良好 注 : mm， 输 入 向 量 x 的 维 数 
的 发 展 ， 但 是 大 规模 学 习 问 题 的 研究 还 处 N: 用 于 训练 的 样本 的 个 数 


- n 计算 误差 
在 发 展 的 早期 阶段 。 @ 这 个 表格 是 由 Bottou(2007) 编辑 的 。 
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4.20 小 结 和 讨论 


反 向 传播 算法 为 多 层 感 知 器 的 训练 建立 了 一 个 计算 有 效 和 有 用 的 算法 。 这 一 算法 的 名 字 来 
源 于 这 样 的 事实 : 其 代价 函数 关于 网 络 自由 参数 〈 突 触 权 值 和 伪 置 ) 的 偏 导数 〈 性 能 测试 ) 是 
由 误差 信号 〈 由 输出 神经 元 计算 ) 通过 网 络 一 层 一 层 反 向 传播 来 决定 的 。 这 样 做 ， 算 法 以 一 种 
最 精致 的 方式 解决 了 信用 分 配 问题 。 算 法 的 计算 能 力 基于 两 个 主要 贡献 ， 

。 局 部 方法 ， 更 新 多 层 感 知 器 的 突 触 权 值 和 偏 置 。 

。 计算 代价 函数 高 效 的 算法 ， 用 于 计算 代价 函数 对 这 些 自由 参数 的 所 有 偏 导 数 。 

训练 的 随机 和 批量 方法 
对 于 训练 数据 的 一 个 给 定名 合 ， 反 向 传播 算法 以 两 种 方式 中 的 一 种 来 操作 : 随机 或 者 批 
量 。 在 随机 方式 中 ， 网 络 的 所 有 神经 元 的 突 触 权 值 都 是 在 一 个 模式 接着 一 个 模式 的 逐次 方式 上 
调整 的 。 因 此 ， 在 计算 中 使 用 的 误差 曲面 梯度 向 量 的 估算 值 在 本 质 上 是 随机 的 一 一 因此 有 了 
“随机 有 反 向 传播 ”的 和 名称。 另 一 方面 ， 在 批量 方式 中 ， 对 所 有 突 触 权 值 和 偏 置 的 调整 是 在 一 个 
回合 接 一 个 回合 的 基础 上 进行 的 ， 这 样 在 计算 中 使 用 梯度 向 量 更 精确 的 估计 。 无 论 它 的 缺点 如 
何 ， 反 向 传播 学 习 的 随机 形式 是 神经 网 络 设计 中 使 用 频率 最 高 的 ， 特 别 是 在 大 规模 问题 上 。 为 
了 得 到 最 好 的 结果 ， 需 要 小 心地 调整 算法 。 
模式 分 类 和 非 线性 滤波 

多 层 感 知 器 设计 中 的 特定 细节 问题 自然 依赖 于 有 关 具 体 的 应 用 。 然 而 ， 我们 可 以 做 出 两 种 
区 分 : 

1. 在 涉及 非 线 性 可 分 模式 的 模式 分 类 中 ， 网 络 中 的 所 有 神经 元 都 是 非 线性 的 。 这 个 非 线 
性 是 通过 使 用 sigmoid 函数 来 获得 的 ， 该 函数 的 两 种 通常 用 法 是 〈a) logistic BIR, Al 
(b) 双 曲 正切 函数 。 每 个 神经 元 负责 在 决策 空间 中 产生 它 自 己 的 超 平 面 。 通 过 一 个 监 
督学 习 过 程 ， 网 络 中 由 所 有 神经 元 形成 的 超 平面 的 组 合 被 反复 调整 ， 使 其 对 来 自 不 同 
类 是 未 出 现 过 的 模式 分 类 时 ,平均 分 类 误差 最 小 。 对 于 模式 分 类 来 说 ， 随 机 反 向 传播 
算法 是 实现 训练 最 广泛 使 用 的 算法 ， 特 别 是 在 大 规模 问题 上 例如 光学 字符 识别 )。 

2. 在 非 线性 滤波 中 ， 多 层 感知 器 的 输出 的 动态 范围 应 该 大 到 足以 包含 过 程 值 ; 在 这 样 的 
背景 下 ， 线 性 输出 神经 元 的 使 用 是 最 明智 的 选择 。 对 学 习 算法 ， 我 们 提供 如 下 的 观察 
事实 : 

。 在 线 学 习 比 批量 学 习 慢 得 多 。 
。 假设 批量 学 习 是 期 望 的 选择 ， 标 准 反 向 传播 算法 比 共 斩 梯 度 方 法 慢 。 
本 章 讨论 的 非 线 性 滤波 方法 ， 集 中 于 利用 静态 网 络 ， 以 多 层 感 知 器 为 例 ; 输入 信号 通过 一 
个 提供 了 时 间 的 短期 记忆 结构 (如 抽 头 延迟 线 或 者 gamma 滤波 器 ) 应 用 于 多 层 感 知 器 ， 而 时 
间 是 滤波 的 重要 一 维 。 在 第 15 章 ， 我 们 将 再 次 讨论 非 线 性 滤波 器 的 设计 ， 在 该 章 中 反馈 作用 
于 多 层 感 知 器 ， 从 而 将 之 转化 为 循环 神经 网 络 。 
小 规模 和 大 规模 学 习 问 题 
一 般 来 说 ， 在 机 器 学 习 问题 的 研究 中 出 现 三 种 误差 ; 
L 逼近 误差 ， 这 是 在 给 定 训练 样本 的 固定 大 小 N 后 ， 由 训练 神经 网 络 或 者 机 器 学 习 所 招 
致 的 误差 。 
. 估计 误差 ， 这 是 在 机 器 的 训练 完成 后 ， 用 以 前 没有 出 现 过 的 数据 测试 其 性 能 所 招致 的 
误差 ， 从 效果 上 而 言 ， 估 计 误 差 是 泛 化 误差 的 男 一 个 途径 。 
3. 最 优化 误差 ， 这 是 对 于 预先 给 定 的 计算 时 间 工 来 说 ， 训 练 机 器 的 计算 精确 度 所 引起 的 。 


N 
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在 小 规模 学 习 问 题 中 ， 我 们 发 现 主动 预算 约束 是 训练 样本 大 小 ， 其 隐 含 意义 在 于 最 优化 误 
差 实际 上 通常 是 零 。 因 此 结构 风险 最 小 化 的 Vapnik 理论 对 于 处 理 小 规模 学 习 问 题 来 说 是 足够 
的 。 另 一 方面 ， 在 大 规模 学 习 问 题 中 ， 主 动 预算 约束 是 可 用 的 计算 时 间 工 ， 此 时 最 优化 误差 自 
身 起 着 关键 的 作用 。 特 别 地 ， 学 习 过 程 的 计算 精确 度 以 及 因此 而 来 的 最 优化 误差 受到 用 于 求解 
学 习 问 题 的 最 优化 算法 类 型 的 巨大 影响 。 


注释 和 参考 文献 


1. sigmoid 函数 的 图 形 是 “s” 形 的 ; Menon 等 (1996) 对 两 类 sigmoid 函数 进行 了 深入 的 研究 
+ 简单 sigmoid， 定 义 为 渐进 有 界 的 和 完全 单调 的 单 变量 奇 函 数 。 

。 me sigmoid， 代 表 简 单 sigmoid 的 一 个 真子 集 和 双 曲 正切 消 数 的 自然 推广 。 

. 对 于 LMS 算法 的 特殊 情形 ,已 经 证 明 使 用 动量 常数 a 降低 学 习 率 参数 ;的 稳定 范围 ,， 并且 如 果 7 没有 被 适 
当 调 整 ， 这 样 会 导致 不 稳定 。 此 外 ， 错 误 调 整 也 随 a 的 增加 而 增长 ; 更 详细 的 论述 参见 Roy and Shynk 
(1990). 

. 如 果 向 量 w 不 比 它 邻 近 的 点 向 量 更 差 的 话 ， 向 量 w 被 称 为 输入 输出 函数 下 的 一 个 局 部 最 小 值 ; 也 就 是 ， 
存在 一 个 s 使 得 


ES 





Ca 


F(w") < Fw) 对 所 有 满足 lwow | 二 e 的 w 
(Bertsekas，1995) 。 如 果 w 不 比 其 他 所 有 的 向 量 都 差 ， 则 称 它 为 函数 下 的 一 个 全 局 最 小 值 ; 也 就 是 ， 
F(w") < F(w) MRA wE R" 

其 中 nn 是 w 的 维 数 。 

对 有 效 梯度 估计 应 用 反 向 传播 的 首次 文献 记载 应 归功 于 Werbos(1974)。 在 第 4.8 节 中 给 出 的 材料 依照 

Saarinen 等 (1992) 给 出 的 处 理 方法 ; Werbos(1990) 对 该 题目 给 出 更 一 般 的 讨论 。 

. Battiti(1992) 回顾 了 计算 Hessian 矩阵 的 精确 算法 和 近似 算法 ， 并 有 特别 针对 神经 网 络 的 参考 文献 。 

. Muller 等 (1998) 研究 了 将 式 (4.77) 的 退火 在 线 学 习 算 法 应 用 于 不 稳定 盲 源 分 离 问 题 ， 这 说 明了 Murata 
(1998) 的 学 习 率 自 适应 控制 的 广泛 算法 适用 性 。 言 源 分 离 问题 在 第 10 章 中 讨论 。 

. 式 (4. 80) 的 公式 遵循 根据 Sompolinski (1995) 最 优 退 火 在 线 学 习 算法 的 对 应 部 分 ， 用 于 处 理学 习 率 参数 
的 自 适 应 。 这 一 算法 的 实际 局 限 包括 需要 在 每 一 步 迭 代 计 算 Hessian 矩阵， 并 且 需 要 知道 学 习 曲 线 的 最 小 
WHR. 

. 6 FASE aE EAT WA ESE Weierstrass 定理 (Weierstrass, 1885; Kline, 1972) 的 自然 扩展 。 这 个 定理 表明 


任何 一 个 在 实 灿 闲 区 间 上 的 连续 函数 都 可 以 表示 成 该 区 间 上 绝对 一 致 收效 的 多 项 式 级 数 的 极限 。 


利用 多 层 感知 器 来 表示 任意 连续 函数 的 优势 ， 这 一 研究 可 能 是 HechtNielsen(1987) 首先 关注 的 。 他 引用 了 
Sprecher(1965) 的 Kolomogorov 要 加 定理 的 改进 版 。 然 后 Gallant 和 White(1988) 证 明 ， 在 隐藏 层 具 有 单 
调 “余弦 ” 挤 压 和 在 输出 无 挤 压 的 单 隐藏 层 多 层 感知 器 是 被 作为 “Fourier 网 络 ” 的 特殊 情形 典 人 的， 它 的 
输出 产生 给 定 函 数 的 Fourier 级 数 副 近 。 然 而 ， 在 传统 的 多 层 感知 器 背景 下 ，Cybenko 第 一 次 严格 证 明了 一 
个 隐藏 层 足 够 一 致 逼近 任何 具有 在 单位 超 立 方 体 中 的 支 集 的 函数 ;这 项 工作 作为 1988 伊利 诺 斯 大 学 的 技术 
报告 发 表 ， 一 年 之 后 作为 论文 发 表 (Cybenko，1988，1989)。 在 1989 年 ， 另 外 两 篇 关于 多 层 感 知 器 通用 通 
近 器 的 论文 独立 发 表 了 ， 一 篇 由 Funahashi 完成 ， 另 外 一 篇 由 Hornik 等 〈(1990) 完成 。 对 后 来 关于 逼近 问 
题 的 贡献 ， 参 见 Light(1992b) 。 
交叉 验证 的 发 展 历史 在 Stone(1974) 中 有 记载 。 交 叉 验 证 的 思想 至 少 在 20 世纪 30 年 代 就 已 广泛 传播 ， 但 
该 项 技术 的 改进 是 在 20 世纪 60 年 代 和 70 年 代 完成 的 。 该 领域 的 两 篇 重要 论文 是 Stone (1974) 和 和 Geisser 
(1975) ， 他 们 独立 并 且 几 乎 同时 提出 这 项 技术 。 这 项 技术 被 Stone 命名 为 “交叉 验证 方法 ”， 而 Geisser Ml 
称 为 “预测 样本 复 用 方法 ”。 
10. Hecht-Nielsen(1995) 描述 了 一 种 复制 器 神经 网 络 ， 它 是 具有 三 个 隐藏 层 和 一 个 输出 层 的 多 层 感知 器 的 

形式 : 

。 在 第 一 和 第 三 隐藏 层 中 的 激活 函数 通过 双 曲 正切 函数 定义 : 

p? Cu) = g” Cu) = tanhl) 
HP v BEER HHS CS eM 
。 在 第 二 隐藏 层 中 的 每 个 神经 元 的 激活 函数 由 


> 


an 


D 


~ 


Oo 


wW 
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11. 


g?” œ) = ztn D mh(a(o- $) ) 

给 出 ， 其 中 a 是 一 个 增益 参数 ，wv 是 该 层 中 神经 元 的 诱导 局 部 域 。 函 数 g'”(v) 描 述 一 个 光滑 的 具有 N 

级 的 阶梯 激活 函数 ， 因 而 本 质 上 把 相关 神经 元 层 的 输出 向 量 转化 为 K 二 和 N" R, HP n 是 中 间 隐 藏 层 的 

神经 元 数目 。 
， 输出 层 中 的 神经 元 是 线性 的 ， 它 们 的 激活 函数 定义 为 

g? (wv) =v 

。 基于 这 种 神经 网 络 结构 ，Hecht- Nielsen 提出 了 一 个 定理 ,证 明 对 随机 输入 数据 向 量 的 最 佳 数据 压缩 是 
可 以 得 到 的 。 
共 斩 梯 度 方法 的 经 典 参 考 文献 是 Hestenes and Stiefel(1952〉 的 著作 。 关 于 共 思 梯 度 算法 收 伍 行 为 的 讨论 ， 
见 Luenberger(1984) and Bertsekas(1995) 。 关 于 共 恩 梯度 算法 的 许多 方面 的 指导 性 处 理 方 法 ， 见 Shewchuk 
(1994) 。 关 于 在 神经 网 络 领 域 中 该 算法 的 易 读 文献 见 Johansson 等 (1990)。 
共 元 和 实 度 算法 的 传统 形式 要 求 使 用 直线 搜索 方法 ， 它 可 能 因为 自身 的 尝试 性 和 误差 性 而 花费 时 间 。Mpller 
(1993) 描述 共 思 梯 度 算法 的 一 个 修改 版 本 ， 称 为 比例 共 物 梯度 算法 ， 它 避免 使 用 直线 搜索 。 从 本 质 上 来 
说 ， 直 线 搜索 由 算法 的 一 维 空间 的 Levenberg-Marquardt 形式 代替 。 使 用 这 种 办 法 的 动机 是 避 开 由 非 正 定 
Hessian 矩阵 引起 的 困难 (Fletcher, 1987). 


. 被 称 为 统 的 技术 是 由 Pearlmnutter(1994) 而 来 ， 它 提供 了 计算 和 抢 阵 向 量 乘 积 的 有 效 程序 ， 因 此， 这 一 技术 


能 够 实际 应 用 于 计算 式 (4. 138) 中 的 道 Hessian 矩阵 H-: 。 习 题 4. 6 中 会 用 到 级 技术 。 


. Fukushima(1980, 1995) 在 设计 一 个 称 为 神经 认 知 机 的 学 习 机 时 ， 引用 了 Hubel 和 Wiesel 关于 “简单 ” 


和 “复杂 ”细胞 的 概念 ， 这 是 该 概念 在 神经 网 络 文献 中 首次 被 引用 。 然 而 ， 这 个 学 习 机 以 自 组 织 的 形式 运 
行 ， 而 图 4. 23 描述 的 卷 积 网 络 使 用 标定 的 样本 以 监督 的 形式 运行 


. 对 于 通用 短视 映射 定理 的 起 源 ， 参 看 Sandberg(1991) 。 
. 对 于 VC 维 数 的 细节 和 相关 的 实验 误差 的 讨论 ， 参 看 Vapnik(1998) 关于 统计 学 习 理 论 的 经 典 书籍 。VC 


维 数 也 在 Sch6lkopf and Smola(2002) 以 及 Herbrich(2002) 的 书 中 做 了 讨论 。 值 得 一 提 的 是 :VC 维 数 和 
Cover 分 离 能 力 有 关 ， 这 将 在 第 5 章 中 讨论 。 


习题 
反 向 传播 学 习 


4.1 


为 了 解决 XOR 问题 ， 图 P4. 1 表示 一 个 包括 单个 隐藏 神经 元 的 神经 网 络 ;， 这 个 网 络 可 以 看 作 是 在 第 4.5 
节 中 所 考虑 模型 的 替代 模型 。 通 过 构建 (a) 决策 区 域 和 b) 网 络 的 真 值 表 ， 证 明 图 P4. 1 表示 的 网 络 
解决 了 XOR 问题 。 








图 P4.1 


4.2 使 用 反 向 传播 算法 为 图 4. 8 所 示 的 神经 网 络 计算 一 组 突 触 权 值 和 偏 置 的 值 以 解决 XOR 问题 。 假 设 非 线 


性 使 用 一 个 logistic 函数 。 


4.3 ”动量 项 a 通常 被 指定 为 在 0a 二 1 范围 的 正 值 。 如 果 a 是 赋予 在 一 1<a<<0 之 间 的 一 个 负 值 ， 研 究 在 这 


样 的 条 件 下 使 得 式 (4. 43) 关 于 时 间 i 的 行为 差异 。 


4.4 考虑 包括 单个 权 值 的 网 络 的 简单 例子 ， 它 的 代价 函数 是 : 


E(w) = kı (w— w)? + ke 
其 中 w., k 和 ks 是 常数 。 用 具有 动量 项 a 的 反 向 传播 算法 最 小 化 6(w)。 
探索 包含 的 动量 项 常数 a 是 怎样 影响 学 习 过 程 的 。 特 别 注意 与 a 相对 而 言 达 到 收敛 所 需 的 步 数 。 


4.§ 
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式 (4.51) 到 式 (4. 53) 定 义 图 4. 14 中 的 多 层 感 知 器 实现 的 逼近 函数 FC(w,x) 的 偏 导数 。 根 据 如 下 的 条 件 


推导 这 些 公式 : 


Em = Fld — Fwy 
(b) 神经 元 了 的 输出 : 


Ji 一 of Yea) 


其 中 wi 是 从 神经 元 i 到 神经 元 j 的 突 触 权 值 ，y; 是 神经 元 i 的 输出 。 


(c) 非 线 性 : 


=— l 
p) = 1+ exp(— v) 


由 Pearlmutter(1994) HARER., 提供 了 计算 矩阵 向 量 乘积 的 快速 计算 程序 。 为 了 说 明 这 一 程序 ， 


考虑 一 个 单一 隐藏 层 的 多 层 感 知 器 ;网络 的 前 向 传播 公式 定义 为 ， 


v = > WjiTi 
i 

zj = olv) 

J 一 waz 


RC: ] 记 为 作用 于 括号 内 的 量 的 一 个 算 子 ， 用 于 对 手头 的 示例 网 络 产生 如 下 的 结果 


Rv; | = Daz: , RE wi | = AR 


Rly] = gp Cy) Rly I. g (uj) = Soy) 


RE ye | = Dex Riz] + Dasz; , Rw; ] = ay 


RE RBM A RE. WSR LUE, ATRO” AMERI TF AR PEERI A A A N 


Riw] = a; 


其 中 w 是 连接 到 节点 /的 权 值 向 量 ，ai BARAT rs BM AIK EL 


Ca) 对 反 向 传播 算法 应 用 鹃 技术 ， 推 导 和 矩阵 向 量 乘 积 Ha 的 元 素 的 表达 式 ， 识 别 隐 藏 和 输出 神经 元 的 新 


变量 。 对 于 这 一 应 用 ， 利 用 本 习题 开始 所 描述 的 多 层 感 知 器 。 
Cb》 证 明 久 技术 是 计算 人 快速 的 。 


监督 学 习 问 题 
4.7 在 这 一 习题 中 ， 我 们 研究 多 层 感知 器 完成 的 输出 表达 和 决策 规则 。 从 理论 上 讲 ， 对 于 M 类 分 类 问题 ，M 
个 不 同类 的 结合 形成 了 整个 输入 空间 ， 我 们 共 需 要 M 个 输出 来 表示 所 有 可 能 的 分 类 决策 ， 如 图 P4.7 所 
示 。 在 这 个 图 中 ,向量 记 为 由 多 层 感知 咒 分 类 的 zm 维 随 机 向 量 x 的 第 7 个 原型 (prototype)( 即 ， 唯 一 


样本 ) 。x 能 属于 的 M 个 可 能 类 的 第 & TERK Go L ys 为 响 
应 于 原型 z; 的 网 络 第 & 个 输出 ， 如 下 所 示 : 

yy = F(X), k=1,2,,M 
其 中 函数 F.《，) 定 义 网 络 学 习 的 从 输入 到 第 个 输出 的 映射 。 





为 了 表述 的 方便 ， 令 图 P4.7 习题 4. 7 中 模式 分 类 器 框图 


y = Loy deseo]? = LE Ou) FOG) 0 Fn (x J? 


其 中 F(，。) 是 向 量 值 函 数 。 我 们 在 这 一 问题 中 希望 解决 的 基本 问题 是 : 


在 多 层 感 知 器 训练 之 后 ， 对 于 分 类 网 络 的 M 个 输出 而 言 什 么 是 最 优 决策 规则 ? 


F(x;) 


为 了 解决 这 一 问题 ， 考 虑 使 用 对 隐藏 层 神经 元 做 人 logistic 函数 的 多 层 感知 融 并 且 在 如 下 假设 下 运行 : 


。 训练 样本 的 大 小 足够 大 使 得 能 够 对 正确 分 类 概率 做 合理 的 精确 估计 。 
。 用 于 训练 多 层 感 知 器 的 反 向 传播 算法 不 陷入 局 部 极 小 点 。 


具体 来 说 ， 对 多 层 感知 器 的 M 个 输出 提供 后 验 类 概率 估计 的 性 项 进行 数学 讨论 。 


4.8 在 这 一 问题 中 ， 我 们 回顾 第 4. 10 节 中 讨论 过 的 学 习 率 的 自 适 应 控制 。 感 兴趣 的 问题 是 论证 式 (4. 85) 中 
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的 学 习 率 尺 四 的 渐进 行为 ， 当 迭代 次 数 趋 于 无 穷 时 不 收敛 于 零 。 
(a) 令 (mn) 记 对 于 样本 {x,d) 的 辅助 向 量 r(z) 的 期 望 。 证 明 如 果 估 计 癌 (2 是 在 最 优 估 计 w 的 很 邻近 ， 
我 们 可 以 写 为 
Rati) œ~ (1— OF) + 8K* (Wn) — Win) 
其 中 WOO THT WOO WBA, S 是 小 的 正 参 数 。 
(b) 在 Heskas and Kappen(1991) 中 , TEAR T (hitWin) 被 一 个 高 斯 分 布 的 随机 变量 有 逼近。 因此, 证 明 
下 面 的 渐进 行为 : 
lim Wn) # 0 
这 一 条 件 关于 学 习 率 参数 兴 旭 的 渐 近 行为 教 给 我 们 什么 ? 
4.9 最 小 描述 长 度 (MDL) 准则 的 组 成 描述 如 下 (参看 式 (2. 37) ) : 
MDL = (误差 项 ) 十 (复杂 项 ) 
讨论 权 延 迟 方法 应 用 于 网 络 修剪 是 如 何 符合 MDL 形式 的 。 
4.10 在 网 络 修 前 的 最 优 脑 损伤 (OBD) 算法 中 ,根据 LeCun 等 (1990b), Hessian $ PF H HRA MAI 
近 。 利 用 这 一 逼近 ， 推 导 作 为 最 优 脑 外 科 (OBD 算法 的 特殊 情形 的 OBD 过 程 ， 这 已 经 在 4. 14 节 中 学 
习 过 了 。 
4.11 在 Jacobs (1988) 中 ， 对 在 线 反 向 传播 学 习 的 加 速 收 化 提出 了 以 下 启发 : 
Ci) 代价 函数 的 每 一 个 可 调整 网 络 参数 将 具有 其 自身 的 学 习 率 参数 。 
(ji 每 一 个 学 习 率 参数 将 被 允许 从 一 次 迭代 到 下 一 次 迭代 之 间 发 生变 化 。 
GO 当代 价 函 数 对 于 突 触 权 值 的 导数 和 算法 几 次 连续 选 代 的 代数 符号 相同 时 ， 这 一 特定 权 值 的 学 习 率 
参数 将 被 增加 。 
(jvV〉 当 代价 函数 对 于 特定 突 触 权 值 的 代数 符号 和 算法 的 几 次 连续 迭代 发 生变 化 时 ， 对 该 权 值 的 学 习 率 
参数 将 被 降低 。 
这 四 个 启发 满足 反 向 传播 算法 的 位 置 约束 。 
(a) 利用 直觉 讨论 来 验证 这 四 个 启发 。 
(b) 反 向 传播 算法 中 权 值 更 新 的 动量 的 包括 可 以 看 作 是 满足 了 启发 iO 和 Civ) 的 机 制 。 证 明 这 一 


声明 的 有 效 性 。 
二 阶 最 优化 方法 
4.12 ERU. 41) 所 述 的 权 值 修改 中 动量 项 的 使 用 可 以 被 认为 是 共 轿 梯度 方法 的 近似 〈Battiti，1992)。 讨 论 
这 种 说 法 的 正确 性 。 


4.13 ”以 式 (4.127) 中 B(n) 的 公式 开始 ， 推 导 Hesteness-Stiefel 公式 : 
r’ (nm) (r(n) — rn — 1)) 
s (n— 1)r(n— 1) 

其 中 s() 是 方向 向 量 ,，r《n) 是 共 轿 梯度 方法 中 的 余 项 。 利 用 这 个 结果 ,推导 式 (4.128) 中 的 Polak- 
Ribiére 公式 和 式 (4. 129) 中 的 Fletcher-Reeves 公式 。 

时 序 处 理 

4.14 图 P4.14 描述 用 高 斯 形式 的 时 间 窗 口 作为 时 序 处 理 的 方法 ， 这 是 受到 神经 生物 学 考虑 的 启发 《Boden- 
hausen and Waibel，1991)。 与 神经 元 j 的 突 触 i RAMBO, WON On, ts oa), HP oy 和 oj 
分 别 表示 时 延 和 和 窗口 的 宽度 ， 表 示 为 


Bd) = 








OCns ri son) = exp( ea ty) ,i = 1,2,'" sMo 
j 


1 
2ra 
神经 元 j 的 输出 模型 为 

yi(n) = of >) wu (2) 
其 中 wm) 是 输入 x Cn) AY E BE OC, ta oz ) 的 卷 积 。 属于 神经 元 7 的 突 触 i 的 权 值 w; 和 时 延 ry BE 


用 监督 方式 学 习 。 
这 个 学 习 可 以 通过 标准 的 反 向 传播 算法 来 实现 。 试 通过 推导 wo o o 的 更 新 公式 来 演示 这 个 学 习 过 程 。 
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输入 


x, (n) 






移动 这 个 窗口 
输入 至 左边 


x(n) 





> 神经 元 /的 输出 


u(n) 





输入 


x,, (a) 





有 时间 n 
图 P4.14 习题 4.14 的 图 : 附加 于 高 斯 窗口 的 指示 是 针对 学 习 算 法 的 


计算 机 实验 
4.15 研究 使 用 sigmoid 非 线性 函数 的 反 向 传播 学 习 方法 获得 一 对 一 上 映射， 描述 如 下 : 


L f=, 1<z<100 
2. f(x) =logoz, 1IKr<10 
3. f(z) =exp(—2), IKr10 


4. f(a)=sinz, 02> 


对 每 个 映射 ， 完 成 如 下 工作 : 
(a》 建 立 两 个 数据 集 ， 一 个 用 于 网 络 训练 ， 男 一 个 用 于 测试 。 
Cb) 假设 具有 单个 隐藏 层 ， 利 用 训练 数据 集 计算 网 络 的 突 触 权 值 。 
Co) 通过 使 用 测试 数据 求 网 络 计 算 精 度 的 值 。 
使 用 单个 隐藏 层 ， 但 隐藏 神经 元 数目 可 变 ， 研 究 网 络 性 能 是 如 何 受 隐藏 层 大 小 变化 影响 的 。 
4.16 重复 4.7 节 对 MLP 分 类 器 的 计算 机 试验 ， 其 中 两 月 之 间 的 距离 设 为 4 一 0。 根据 习题 1.6 中 关于 感知 器 
对 于 同样 设置 的 相应 试验 来 评价 你 的 试验 发 现 。 
4.17 在 这 一 试验 中 ,考虑 一 个 理论 上 已 知 其 决策 边界 的 模式 分 类 试验 。 本 试验 的 主要 目的 是 看 看 如 何 就 最 
优 决 策 边界 而 言 从 试验 上 最 优化 多 层 感知 器 的 设计 。 
具体 来 说 ， 要 求 如 何 区 分 两 个 具有 相互 覆盖 的 二 维 高 斯 分 布 模式 的 等 可 能 类 ， 这 两 个 类 标示 为 @ AE, 。 





这 两 个 类 的 条 件 概 率 密度 函数 是 .: 
Class % Pri, (x|@) = i exp( F | x— po | 2) 
其 中 
m 一 均值 向 量 = [0,0]? 
of 二 方差 二 1 





1 1 
Class €, Pril (x|@) = Ina? exp( 7z | x— pe | 2) 


其 中 
fe 一 [2,0]7 
o 一 4 


Ca) 最 优 贝 叶 斯 决策 边界 是 由 似 然 比 测试 
人 
ACx) eA 


2 
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定义 的 ， 其 中 

Pu, alg) 

Pag (x | €) 

和 是 两 类 的 先 验 概 率 决 定 的 阅 值 。 证 明 最 优 决策 边界 是 一 个 圆 ， 其 圆心 处 于 


_ 「— 2/3 
x =| as] 
半径 是 > 一 2.34。 
b 假设 利用 单一 隐藏 层 。 要 求 通过 试验 决定 隐藏 神经 元 的 最 优 个 数 。 


。 从 具有 两 个 隐藏 神经 元 的 多 层 感知 器 开始 ， 利 用 学 习 率 4 一 0. 1 和 动量 常数 a 二 0 的 反 向 传播 算 
法 来 训练 网 络 ， 利 用 下 面 的 方案 来 计算 正确 分 类 的 概率 ， 


A(x) = 








训练 样本 大 小 
500 





320 





2 000 80 





8 000 


。 重复 这 一 试验 ， 这 一 次 利用 四 个 隐藏 神经 元 ， 其 他 都 与 前 面相 同 。 比 较 这 第 二 个 试验 的 结果 和 
前 面 的 试验 结果 ， 然 后 根据 你 考虑 的 最 优选 择 来 选择 两 个 还 是 四 个 隐藏 神经 元 的 网 络 结构 。 
O 对 于 Cb) 部 分 选择 的 “最 优 ” 网 络 ， 现 在 转向 试验 性 地 寻找 学 习 率 参数 7 和 动量 常数 a 的 最 优 值 。 
为 了 这 样 做 ， 利 用 下 面 参数 的 组 合 来 完成 试验 : 
7 € [0.01,0.1,0.5] 
a € [0.0,0.1,0.5] 
从 而 ， 决 定 产生 正确 分 类 最 好 概率 的 7 和 we 的 值 。 
(d) 已 经 有 了 隐藏 层 最 优 大 小 以 及 了 7 和 wa 的 最 优 集 后 ， 完 成 最 后 的 试验 来 寻找 最 优 决策 边界 和 相应 的 最 
优 分 类 概率 。 比 较 这 样 通过 试验 获得 的 最 优 性 能 和 理论 最 优 解 ， 对 你 的 结果 做 出 评论 。 
在 这 个 习题 里 我 们 用 标准 的 反 向 传播 算法 来 解决 困难 的 非 线 性 预测 问题 ， 比 较 它 与 LMS 算法 的 性 能 。 
要 考 典 的 时 间 序 列 由 离散 Volterra 模型 建立 ， 其 形式 为 


a(n) = Dgivln— D+ 2 DJgyvln— Duln— j) t= 


其 中 gi; ,gy ，… 是 Volterra 系数 。wv(n) 是 独立 的 高 斯 分 布 白 噪声 序列 的 抽样 。z(n) 是 Volterra 模型 的 输 
出 结果 。 第 一 个 求 和 项 是 我 们 熟悉 的 滑动 平均 (MA) 时 间 序 列 模型 ， 剩 余 的 求 和 项 是 更 高 阶 的 非 线性 
的 部 分 。 一 般 而 言 ， 对 Volterra 系数 的 估计 通常 认为 是 困难 的 ， 主 要 是 因为 它们 和 数据 的 非 线 性 关系 。 
考虑 一 个 简单 的 例子 : 
x(n) = vln) 十 所 (Ca 一 1)o2 一 2) 
时 间 序 列 具 有 零 均值 ， 不 相关 ， 从 而 有 一 个 白 噪声 的 谱 。 然 而 ,时间 序列 的 样本 并 不 是 互相 独立 的 ， 
因而 可 以 构造 一 个 高 阶 预测 器 。 模 型 输出 的 方差 由 
È =o tE 

Si, Hho 是 白 噪 声 的 方差 。 
(a) 构造 一 个 多 层 感 知 器 ， 有 6 个 输入 节点 ， 隐 藏 层 含有 16 个 神经 元 ， 只 有 一 个 输出 神经 元 。 使 用 抽 

头 延 时 线 记忆 僻 给 网 络 的 输入 层 。 隐 茂 层 神经 元 使 用 sigmoid 激活 函数 ， 限 制 在 区 间 [0,1] 内 ， 而 

输出 神经 元 充当 一 个 线性 的 组 合 器 。 网 络 使 用 标准 反 向 传播 算法 进行 训练 ， 有 关 参 数 如 下 : 


学 习 率 参数 7=0. 001 
动量 常数 a=0. 6 
处 理 的 样本 总 数 100 600 
每 个 回合 的 样本 数目 1 000 
总 的 回合 数目 2 500 


Ae oh 为 1。 因此， 用 8 二 0. 5， 我 们 求 出 预测 器 的 输出 方差 为 02 二 1. 25。 
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计算 非 线性 预测 器 的 学 习 曲 线 ， 将 预测 器 输出 xCn) 的 方差 绘制 成 训练 样本 的 回合 数 的 函数 ， 一 直 

画 到 2 500 个 回合 。 为 了 准备 进行 训练 的 每 个 回合 ， 探 讨 下 述 两 种 方式 : 

Ci》 维持 训练 样本 的 时 序 ， 从 一 个 回合 到 下 一 个 回合 与 产生 它 的 时 序 一 样 。 

Ci) 训练 样本 的 顺序 从 一 个 模式 〈 状 态 ) 到 另 一 个 模式 是 随机 产生 的 。 

同时 ， 对 1 000 个 样本 的 验证 集 使 用 交叉 验证 〈 在 第 4. 13 节 中 描述 )， 来 监测 预测 器 的 学 习 行 为 。 
O 重复 试验 ， 使 用 LMS 算法 对 6 个 样本 的 输入 执行 线性 预测 。 算 法 的 学 习 率 参数 设置 为 ?一 10  。 
O) 重复 整个 实验 ， 用 一 1， 史 一 2; 接着 再 重复 ， 用 8 一 2， 吧 一 5。 
每 个 实验 的 结果 应 该 揭示 反 向 传播 算法 和 LMS 算法 最 初 基本 遵循 相似 的 途径 ， 然 而 反 向 传播 算法 继续 
改进 ， 最 终 产 生 一 个 接近 预定 值 oz 的 预测 方差 。 
在 本 试验 中 ， 我 们 利用 由 反 向 传播 算法 训练 的 多 层 感 知 器 来 完成 Lorenz 吸引 子 的 一 步 预测 。 这 一 吸引 
子 的 动力 学 系统 由 下 面 的 三 个 方程 来 定义 : 





d 

D Z ax (i) + oy) 

dy =— rz) tre) — yr) 
dz(t) _ 


a = x(t) y(t) — &z(t) 


其 中 co，r， 和 5 是 无 量 纲 的 参数 。 这 些 参数 的 典型 值 是 oc 一 10,，b 一 8/3 和 7 一 28。 
多 层 感 知 器 的 详细 情况 如 下 所 示 : 

源 节 点 个 数 : 20 

隐藏 层 神 经 元 个 数 ，200 

输出 神经 元 个 数 : 1 

数据 集 的 特性 如 下 所 示 : 

训练 样本 : 700 个 数据 点 

测试 样本 : 800 个 数据 点 

用 于 训练 的 回合 数 : 50 
反 向 传播 算法 的 参数 如 下 所 示 ， 

学 习 率 参数 了 从 10 线性 退火 到 107”, 

动量 ; a=0 

(a) 计算 MLP 的 学 习 曲 线 ， 画 出 均 方 误差 对 用 于 训练 的 回合 数 的 图 。 

Cb) 计算 Lorenz 吸引 子 的 一 步 预 测 ;， 具体 来 说 ， 曾 出 时 间 的 应 数 所 获得 的 结果 ， 人 比较 预测 结果 和 
Lorenz 吸引 子 的 演化 结果 。 
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本 章 组 织 

在 本 章 中 ， 我 们 学 习 机 器 学 习 的 另 一 种 途径 : 基于 聚 类 的 核 方 法 。 在 5.1 节 的 引言 之 后 ， 
本 章 剩 下 的 章节 组 织 如 下 : 

5.2 节 介 绍 关 于 模式 可 分 的 Cover 定理 。 该 定理 是 通过 对 XOR 问题 的 回顾 来 描述 

5. 3 节 讨 论 利用 径 向 基 函 数 来 求解 插值 问题 。 

5.4 节 讨 论 构造 径 向 基 函 数 (RBF) 网 络 ， 也 包括 了 对 于 RBF 网 络 的 实际 考虑 。 

5.5 节 讨 论 天 -均值 算法 ， 该 算法 提供 一 个 用 于 聚 类 的 简单 但 普及 的 算法 ， 对 于 在 非 监督 方 
式 下 训练 隐藏 层 是 很 适合 的 。5.6 节 是 在 开 - 均 值 聚 类 算法 之 后 描述 最 小 二 乘 估计 的 递归 执行 
这 是 用 于 在 监督 方式 下 训练 RBF 网 络 的 输出 层 。5.7 节 讲 述 设 计 RBF 网 络 时 对 于 这 两 阶段 过 
程 的 实际 考虑 。 这 一 过 程 在 5,8 节 的 计算 机 实验 中 具体 说 明 ， 并 和 第 4 章 中 运用 反 向 传播 算法 
所 做 的 同样 的 计算 机 试验 的 结果 作 了 比较 。 

5.9 节 考 察 高 斯 隐藏 单元 的 解释 ，5.10 节 考 察 统 计 学 中 核 回 归 和 RBF 网 络 之 间 的 关系 。 

最 后 是 5.11 节 的 小 结 和 讨论 。 
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对 神经 网 络 的 监督 学 习 有 多 种 不 同 的 方法 。 第 4 章 所 描述 的 多 层 感 知 器 的 反 向 传播 算法 ， 
可 以 看 作 是 递归 技术 的 应 用 ， 这 种 技术 在 统计 学 中 通称 为 随机 禹 近 。 

在 本 章 中 ， 我 们 采用 完全 不 同 的 途径 。 具 体 来 说 ， 通 过 包含 如 下 两 阶段 的 混合 方式 来 解决 
非 线 性 可 分 模式 的 分 类 问题 ， 

。 第 一 阶段 将 一 个 给 定 的 非 线性 可 分 模式 的 集合 转换 为 新 的 集合 一 定 的 条 件 下 ， 转 
换 后 的 模式 变 为 线性 的 可 能 性 很 高 ， 关于 这 fet Ben EN A 追溯 到 Cover 
(1965) 的 早期 论文 

。 第 二 阶段 通过 最 小 二 - 乘 估计 (第 2 章 已 讨论 过 ) 来 解 给 定 的 分 类 问题 。 

我 们 首先 通过 插值 问题 的 讨论 来 描述 关于 这 一 混合 方式 对 模式 分 类 问题 的 一 种 执行 方式 : 

使 用 径 向 基 函 数 网 络 (radial-basis function network，RBF)' ， 该 网 络 结构 由 三 层 组 成 : 

。 输入 层 由 一 些 源 节点 (感知 单元 ) 组 成 ， 它 们 将 网 络 与 外 界 环境 连接 起 来 。 

。 第 二 层 由 隐藏 单元 组 成 ， 它 的 作用 是 从 输入 空间 到 隐藏 〈 特 征 ) 空间 之 间 进 行 非 线 性 
变换 。 在 大 多 数 情 况 下 网 络 仅 有 的 隐藏 层 具有 较 高 的 维 数 ， 这 一 层 是 利用 混合 学 习 过 
程 的 第 一 阶段 在 非 监 督 方式 下 训练 的 。 

。 输出 层 是 线性 的 ， 它 是 为 提供 网 络 的 响应 而 专门 设计 的 ， 该 响应 提供 给 应 用 于 输入 层 
的 激活 模式 。 这 一 层 是 利用 混合 过 程 的 第 二 阶段 在 监督 方式 下 训练 的 。 

从 输入 空间 到 隐藏 空间 的 非 线性 变换 以 及 隐藏 空间 的 高 维 数 满足 了 Cover 定理 仅 有 的 两 个 条 作 。 

RBF 网 络 的 多 数理 论 建 立 在 高 斯 函数 之 上 ， 这 一 类 中 一 个 重要 的 成 员 是 径 向 基 函 数 。 

斯 函数 可 以 看 作 是 一 个 核 因此 基于 高 斯 函数 的 两 阶段 过 程 的 设计 可 看 成 是 核 方法 。 
讲 到 核 ， 在 本 童 的 后 面部 分 ， 我们 也 要 讨论 统计 学 中 的 核 回 归 和 径 向 基 函 数 网 络 之 间 的 关系 。 


5.2 模式 可 分 性 的 Cover 定理 
当 用 径 向 基 荡 数 神经 网 络 来 解决 一 个 复杂 的 模式 分 类 任务 时 ， 问题 基本 可 通过 以 下 方式 解 
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Be: 首先 用 非 线 性 方法 将 其 变换 到 高 维 空间 ， 然 后 在 输出 层 进行 分 类 。 模 式 可 分 性 的 Cover Æ 
理 ， 说 明了 这 样 做 的 潜在 合理 性 ， 该 定理 可 以 定性 地 表述 如 下 (Cover, 1965): 


假设 空间 不 是 稠密 分 布 的 ， 将 复杂 的 模式 分 类 问题 非 线性 地 投射 到 高 维 空间 将 比 投射 到 低 
维 空间 更 可 能 是 线性 可 分 的 。 


从 第 1 章 到 第 3 章 对 单 层 结构 的 研究 中 知道 ， 一 旦 模式 具有 线性 可 分 性 ， 则 分 类 问题 相对 
而 言 就 更 容易 解决 。 因 此 ， 我 们 通过 研究 模式 的 可 分 性 可 以 深入 了 解 RBF 网 络 作为 模式 分 类 
器 是 如 何 工 作 的 。 

考虑 一 族 曲 面 ， 每 一 个 曲面 都 自然 地 将 输入 空间 分 成 两 个 区 域 。 用 多 代表 NN 个 模式 (向 
量 ) x ,xX ,… ,xw 的 集合 ， 其 中 每 一 个 模式 都 分 属于 两 个 类 多 和 8: 中 的 一 类 。 如 果 在 这 一 族 曲 
面 中 存在 一 个 曲面 能 够 将 分 别 属于 多 AIM, 的 这 些 点 分 成 两 部 分 ,我们 就 称 这 些 点 的 二 分 (二 元 
划分 ) 关 于 这 族 曲 面 是 可 分 的 。 对 于 每 一 个 模式 xE 史 ， 定 义 一 个 由 一 组 实 值 函 数 (p(w) | 一 1， 
2,… om} 组 成 的 向 量 ， 表 示 如 下 : 

(x) = Lo (x) , pa (x) 79 pm (x) ] (5.1) 

假设 模式 x 是 m 维 输入 空间 的 一 个 向 量 ， 则 向 量 中 (x) 将 omy, 维 输入 空间 的 点 映射 到 新 的 mm 
维 空间 的 相应 的 点 上 。 我 们 将 gy (X) 称 为 隐藏 函数 ， 因 为 它 与 前 馈 神 经 网 络 中 的 隐藏 单元 起 
着 同样 的 作用 。 相 应 地 ， 由 隐藏 函数 集合 {q(x)) 名 ! 所 生成 的 空间 被 称 为 隐藏 空间 或 者 特征 
空间 。 

我 们 称 一 个 关于 的 二 分 (Hi. Ko} 是 中 可 分 的 ， 如 果 存 在 一 个 mi 维 的 向 量 w 使 得 我 们 得 
到 如 下 公式 (Cover，1965): 


w q(x) > 0, xE% (5. 2) 
w’ HC(x) <0, x € & 
由 方程 
w ox) 一 0 
定义 的 超 平 面 描述 中 空间 〈 即 特征 空间 ) 中 的 分 离 曲 面 。 这 个 超 平 面 的 逆 像 ， 即 
x: woa) 一 0 (5. 3) 


定义 输入 空间 中 的 分 离 曲 面 〈 即 决策 边界 ) 。 
考虑 一 个 利用 7 次 模式 向 量 坐标 乘积 的 线性 组 合 实现 的 一 个 自然 类 映射 。 与 此 种 映射 相对 
应 的 分 离 曲 面 被 称 为 r 阶 有 理 获 。 一 个 m 维 空间 的 ~ 阶 有 理 能 可 描述 为 输入 向 量 x 的 坐标 的 
一 个 7 次 齐 次 方程 ， 表 示 为 
Aiai La Th "Ti = O (5. 4) 


Oxi, Kiger Gi qm 
SY Sy Sr StS 


其 中 是 输入 向 量 x 的 第 ;个 元 素 。 为 了 用 齐 次 形式 来 表达 方程 ， 将 z 的 值 置 为 单位 值 1。x 
中 项 Ti 的 > NER. pp Ey Li Lis 被 称 为 单项 式 。 对 于 一 个 Mo 维 的 输入 空间 在 式 (5. 4) 中 
一 共有 





(mo —7)) 

mlr! x x > o 
个 单项 式 。 式 (5. 4) 所 描述 的 分 离 曲 面 的 类 型 的 x x 、 ° x 
ATERPE (WARE). Skan (Om °° G) x 


ABE) 和 起 球面 〈 带 有 某 种 线性 限制 系数 的 a) b) o 
二 次 曲面 ) 等 。 这 些 例子 的 说 明 兄 图 5.1, 该 图 5 1 一 维 平面 上 5 个 点 的 不 同 集合 的 9 一 可 分 二 
图 说 明 在 二 维 输 入 空间 中 的 五 点 的 必 形 。 通 常 分 的 3 个 例子 ，a) 线性 可 分 的 二 分 ; b) 球 


情况 下 ， 线 性 可 分 性 暗示 着 球面 可 分 性 ,而 球 形 可 分 的 二 分 ; c) 二 次 可 分 的 二 分 


146 第 5 章 ARI o a R 


面 可 分 性 又 暗示 着 二 次 可 分 性 ; 反之 则 不 一 定 成 立 。 
在 概率 实验 中 ， 一 个 模式 集合 的 可 分 性 是 一 个 随机 事件 ， 该 随机 事件 依赖 于 选择 的 二 分 
以 及 输入 空间 的 模式 分 布 。 假 设 激活 模式 x, Xp ,… ,xn 是 根据 输入 空间 中 的 概率 特性 而 独立 
选取 的 。 同 时 假设 所 有 的 关于 8 一 {z:}: 的 二 分 都 是 等 概率 的 。 令 P(N ,mi) 表 示 某 一 随机 选取 
的 二 分 是 Go 可 分 的 概率 ， 这 里 被 选中 的 分 离 曲 面 的 类 具有 m 维 的 自由 度 。 根 据 Cover 
(1965)， 可 以 将 PCN,i ) 表 述 为 : 
NRA/N—1、 对 N>>m 一 1 
PONsm) = | 好) a) SNEM] 
这 里 ， 包 括 N 一 1 和 7 的 二 项 式 系数 对 所 有 的 整数 ! 和 和 定义 如 下 : 


(5. 5) 


( l) _ L! 
m (L—m)!m! 

要 说 明 式 (5. 5) 的 图 形 ， 最 好 通过 令 N=im 来 归 一 化 方程 并 对 m 的 变化 值 画 出 概率 POAN ， 
m ) 对 、 的 图 。 这 个 图 揭示 了 两 个 有 趣 的 性 质 (Nilsson，1965): 

。 在 4 二 2 附近 宣称 的 阔 值 效应 (threshold effect); 

。 对 于 mi 的 每 个 值 P(2m,, m)=1/2. 

式 (5.5) 隐 含 了 Cover 的 可 分 性 定理 对 于 随机 模式 的 本 质 *。 它 说 明 累 计 二 项 概率 分 布 ， 相 
当 于 抛 (CN 一 1) 次 硬币 有 (m1 一 1) 次 或 更 少 次 头像 向 上 的 概率 。 

尽管 在 式 (5. 5) 的 推导 中 遇见 的 隐藏 单元 曲面 是 一 个 多 项 式 的 形式 ， 因而 与 我 们 通常 在 径 
向 基 函 数 网 络 中 用 到 的 有 所 不 同 ， 但 是 该 式 的 核心 内 容 却 具有 普遍 的 适用 性 。 具 体 来 说 ， 隐 藏 
空间 的 维 数 m 越 高 ， 则 概率 PON mm ) 就 越 趋向 于 1。 总 之 ， 关 于 模式 可 分 性 的 Cover EWE 
要 包含 下 面 两 个 基本 部 分 : 

lL 由 gi(X) 定 义 的 隐藏 函数 的 非 线性 构成 ， 这 里 XxX 是 输入 向 量 ,， 且 i 二 1,2，…701 。 

高 维 数 的 隐藏 (特征) 空间 ， 这 里 的 高 维 数 是 相对 于 输入 空间 而 言 的 。 维 数 由 赋 给 m 
的 值 ( 即 隐藏 单元 的 个 数 ) 决定 。 

如 前 所 述 ， 通 常 将 一 个 复杂 的 模式 分 类 问题 非 线 性 地 投射 到 高 维 数 空间 将 会 比 投 射 到 低 维 
数 空间 更 可 能 是 线性 可 分 的 。 但 是 需要 强调 的 是 ， 有 时 使 用 非 线 性 映射 〈 即 第 1 点 ) 就 足够 导 
致 线性 可 分 ， 而 不 必 升 高 隐藏 单元 空间 维 数 ， 如 下 面 例子 所 说 明 的 那样 。 

例 1 XOR 问题 

为 了 说 明 模式 的 p 可 分 性 思想 的 意义 ， 考 虑 一 个 简单 却 又 十 分 重要 的 XOR 问题 。 在 XOR 
问题 中 有 四 个 二 维 输入 空间 上 的 点 AR): (1,1),(0,1),(0,0) 和 (1,0) ， 如 图 5. 2a 所 示 。 要 
求 建立 一 个 模式 分 类 器 产生 二 值 输出 响应 ， 其 中 点 (1,1) 或 (0,0) 对 应 于 输出 0， 点 (1,0) 或 
(0,1) 对 应 于 输出 1。 因此 在 输入 空间 中 依 Hamming 距离 最 近 的 点 映射 到 在 输出 空间 中 最 大 分 
离 的 区 域 。 一 个 序列 的 Hamming 距离 定义 为 二 值 序列 中 从 符号 1 变 为 0 的 个 数 ， 反 之 亦 然 。 
因此 ，11 和 00 的 Hamming 距离 是 0，01 和 10 的 Hamming 距离 为 1。 

定义 一 对 高 斯 隐藏 函数 如 下 : 

gi (x) = exp(— | x—t ||”), t = [1,1] 

pz (x) = exp(— || x—ż |), tz = [0,0]7 
这 样 我 们 可 以 得 到 4 个 不 同 的 输入 模式 作为 输入 时 的 结果 ， 如 表 5. 1 所 示 。 如 图 5. 2b 所 示 ， 
输入 模式 被 映射 到 (gi ,wm) 平面 上 。 这 里 可 以 看 到 输入 (0,1), (1,0) 与 剩 下 的 两 个 输入 〈1， 
1) ,C0,0) 是 线性 可 分 的 。 然 后 ， 我 们 将 OM gs (x) 作为 一 个 线性 分 类 器 (如 感知 器 〉 模 型 
的 输入 ， 则 XOR 问题 就 迎刃而解 了 。 n 
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图 5.2 a) XOR 问题 的 4 个 模式 ;b) 决策 图 


表 5.1 用 于 例 1 的 XOR 问题 的 隐藏 函数 设置 














在 这 个 例子 中 隐藏 空间 的 维 数 相对 于 输入 空间 并 没有 增加 。 也 就 是 说 ， 以 高 斯 丽 数 作为 非 
线性 的 隐藏 函数 ， 足 以 将 XOR 问题 转化 为 一 个 线性 可 分 问题 。 
曲面 的 分 离 能 力 

AG. 5) 对 于 在 多 维 空间 中 随机 指定 输入 模式 线性 可 分 的 期 望 最 大 数目 有 重要 意义 。 为 了 
研究 这 个 问题 ， 如 前 所 述 将 Xi ,x ，… Xn 视 为 一 个 随机 模式 (向量 〉 序 列 。 令 NN 为 一 个 随机 变 
量 ， 定 义 为 该 序列 为 p 可 分 时 的 最 大 整数 ， 这 里 p 具有 和 的 自由 度 。 于 是 由 式 (5. 5) 可 以 导出 
当 N=n 时 的 概率 

1 


Prob(N = n) = Pam)— Pint lim) = (DYE 
1 


为 了 解释 上 述 结 果 ， 我 们 回想 一 下 负 二 项 分 布 的 定义 。 该 分 布 相 当 于 在 一 组 重复 的 Ber- 
noulli 实验 中 有 7 次 成 功 、k 次 失败 的 概率 。 在 这 种 概率 实验 中 ， 每 一 次 实验 只 有 两 种 结果 ， 
不 是 成 功 就 是 失败 ， 并 且 成 功 和 失败 的 概率 在 整 组 实验 中 都 是 相同 的 。 令 p 代表 成 功 的 概率 ， 
g 代表 失败 的 概率 ，p 十 g 一 1。 负 二 项 分 布 定 义 (Feller, 1968) 如 下 : 


fsp = pa (7t!) 


) = 0,1,2, (5.6) 


在 pq 一 十 ( 即 成 功 和 失败 具有 相等 的 概率 ) 且 十 r 一 n 的 特殊 情况 下 ， 负 一 项 分 布 将 变 为 
1 1*/n—1 
flkin ki) = (5) ("om = 0012 
根据 上 述 定义 ， 我 们 现在 可 以 看 出 由 式 (5. 6) 所 表示 的 结果 恰好 是 负 二 项 分 布 ， 只 不 过 右 移 了 
m 个 单位 且 具 有 参数 m 和 1/2。 这样，N 相当 于 在 一 组 抛 硬 币 的 实验 中 出 现 第 m 次 失败 的 
“等 待 时 间 ”。 随 机 变量 N 的 期 望 及 其 中 位 数 分 别 为 
- ELN] = 2m, (5. 7) 
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和 
median[ N] = 2m, ` (5. 8) 
因此 ， 可 以 得 到 Cover 定理 的 一 个 推论 ， 用 著名 的 渐 近 结果 的 形式 可 表述 如 下 ， 
一 组 随机 指定 的 输入 模式 〈 向 量 ) 的 集合 在 mi 维 空间 中 线性 可 分 ， 它 的 元 素数 目的 最 大 
期 望 等 于 2m1。 . 
BARR, 2m 是 对 一 族 具 有 m 维 自由 度 的 决策 曲面 的 分 离 能 力 的 自然 定义 。 在 一 定 
程度 上 ， 一 个 曲面 的 分 离 能 力 与 第 4 章 讨 论 的 VC 维 数 的 概念 有 着 紧密 的 联系 。 


5.3 ”插值 问题 


从 关于 模式 可 分 性 的 Cover 定理 得 到 的 重要 思想 是 : 在 解决 一 个 非 线性 可 分 的 模式 分 类 问 
题 时 ， 如 果 将 输入 空间 映射 到 一 个 新 的 维 数 足够 高 的 空间 中 去 ， 将 会 有 助 于 问题 的 解决 。 基 本 
说 来 是 用 一 个 非 线 性 映射 将 一 个 非 线 性 可 分 的 分 类 问题 转变 为 一 个 高 概率 的 线性 可 分 问题 。 同 
样 ， 我 们 可 以 用 非 线 性 映射 将 一 个 复杂 的 非 线 性 滤波 问题 转化 为 一 个 较 简单 的 线性 滤波 问题 。 

现在 考虑 一 个 由 输入 层 、 一 个 隐藏 层 和 只 有 一 个 输出 单元 的 输出 层 组 成 的 前 馈 网 络 。 我 们 

选择 只 有 一 个 输出 单元 的 输出 层 的 目的 主要 是 为 了 简化 说 明 而 又 不 失 一 般 性 。 设 计 这 个 网 络 实 
现 从 输入 空间 到 隐藏 空间 的 一 个 非 线 性 映射 ， 随 后 从 隐藏 空间 到 输出 空间 则 是 线性 映射 。 令 
m 为 输入 空间 的 维 数 。 这 样 从 总 体 上 看 这 个 网 络 就 相当 于 一 个 从 m 维 输入 空间 到 一 维 输出 空 
间 的 映射 ， 可 以 写成 如 下 形式 : 
s: R> > R' (5. 9) 
我 们 可 以 将 映射 ; 视 为 一 个 超 曲 面 CAD TC R*+*!， 就 好 像 可 以 将 一 个 最 基本 的 映射 ;: RI 
Ri, HP s(x) 二 x*， 视 为 R* 空间 中 的 一 条 抛物 线 一 样 。 超 曲面 作为 输入 的 函数 是 输出 空间 
的 一 个 多 维 曲 面 。 在 实际 情况 下 ， 曲 面 T 是 未 知 的 ， 并 且 训 练 数 据 中 通常 带 有 品 声 。 学 习 过 程 
中 的 训练 阶段 和 泛 化 阶段 可 叙述 如 下 (Broomhead and Lowe, 1988): 
。 训练 阶段 由 曲面 了 的 拟 合 过程 的 最 优化 构成 ， 它 根据 以 输入 -输出 样本 〈 模 式 ) BAS 
现 给 网 络 的 已 知 数据 进行 。 
。 泛 化 阶段 的 任务 就 是 在 数据 点 之 间 进 行 插值 ， 插 值 是 在 真实 曲面 了 的 最 佳 逼 近 的 拟 合 
过 程 产生 的 约束 曲面 上 进行 的 。 

这 样 我 们 将 引出 具有 悠久 历史 的 高 维 空间 多 变量 插值 理论 (Davis，1963)。 从 严格 意义 上 
说 ， 插 值 问 题 可 以 叙述 如 下 : 

给 定 一 个 包含 N 个 不 同 点 的 集合 (x, © R” [i= 1,2,…,N}) 和 相应 的 N 个 实数 的 一 个 集 
合 {di € Ri |i = 1,2,…,N}), 寻找 一 个 函数 下 ; 民 * 一 民 ! 满足 下 述 插 值 条件 : 

F(x) = d;, 1 一 1,2，……,N (5. 10) 


对 于 这 里 所 述 的 严格 插值 来 说 ， 插 值 曲面 〈 即 函数 O 必须 通过 所 有 的 训练 数据 点 。 
径 向 基 函 数 (RBP 技术 就 是 要 选择 一 个 函数 下 具有 下 列 形式 ， 


F(x) = Dwg haa | > (5.11) 
其 中 (gC ll x— x |] [2 二 1,2,…,N) 是 NN 个 任意 (一 般 是 线性 ) 函数 的 集合 ， 称 为 径 向 基带 
he |e 来 示范 数 ， 通 常 是 欧 几 里 得 范 数 《Powell，1988)。 已 知 数据 点 x E Re Ci 二 1 


2,…,N) 是 径 向 基 函 数 的 中 心 。 
KEG 10) 的 插值 条 件 代 人 式 (5.11) 中 ， 可 以 得 到 一 组 关于 未 知 系数 〈 权 值 ) 的 展开 


(w) 的 线性 方程 : 
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fil Piz PiN w dı 
w d 
21 P22 Pen 2J 2 (5. 12) 
nl Pn? °° NN UN dy 
其 中 
gy = Cla — Ds ij = 1,250 N 
& 


d = [d,,dz2,**,dy ]" 
w = [w sw sw |? (5. 13) 
上 式 中 的 NX1 向 量 d 和 w 分 别 表 示 期 望 响应 向 量 和 线性 权 值 向 量 ， 其 中 六 表示 训练 样本 的 
长 度 。 令 ORRILA pih NXN 阶 的 矩阵 ; 


中 = {py tij 《5. 14) 

我 们 称 该 矩阵 为 播 值 短 阵 。 于 是 式 (5. 12) 可 以 写成 如 下 紧凑 形式 ， 
@w = x (5. 15) 
假设 o AIARA, Ae OT. RETR. 15) 中 解 出 权 值 向 量 w， 表 示 为 
w= @'x (5. 16) 


问题 的 关键 是 : 怎么 能 保证 插值 矩阵 © 是 非 奇 异 的 ? 

可 以 证 明 ， 对 于 大 量 径 向 基 函 数 来 说 ， 在 某 种 条 件 下 ， 上 述 问 题 的 答案 可 以 由 下 面 的 重要 
定理 给 出 。 
Micchelli 定理 

Micchelli(1986) 证 明了 如 下 定理 : 


如 果 (xX ARP N 个 互 不 相同 的 点 的 集 含 ， 则 NXN 阶 的 插值 矩阵 OCF ij 个 元 素 是 
gy 一 g(x 一 Xi |) 是非 奇异 的 。 
有 大 量 的 径 向 基 函 数 满足 Micchelli €M, T MSTA I HE g N a h A E E 
的 函数 ; 
1. 多 二 次 Cmultiquadrics) RAR: 
pr) = (P te)” wmHEecS>ORkrER (5. 17) 
2. 道 多 二 次 (inverse multiquadrics) PAR: 


对 某 些 c 汪 0 及 rERR (5. 18) 


1 
PO = GE a 


3. 高 斯 函数 : 
pr) =exp(— Zz) 对 革 此 o>>0 及 rE R (5. 19) 


多 二 次 函数 和 道 多 二 次 函数 都 应 归功 于 Hardy(1971)。 

为 了 使 式 (5. 17) 至 式 (5. 19) 所 示 的 径 向 基 范 数 是 非 奇异 的 ， 必 须 使 所 有 的 输入 点 (x) 
互 不 相同 。 这 就 是 使 插值 矩阵 ® 非 奇 异 的 全 部 要 求 ， 与 所 给 样本 的 长 度 N 和 向 量 〈 点 )x: 的 维 
数 Mo TX. , 

KS. 1D HMSoIKBMARGS. 19) 的 高 斯 函数 具有 一 个 共同 的 性 质 ， 它们 都 是 局 部 化 的 
函数 ， 因 为 当 r>co 时 ，p(r)-~0。 以 上 面 两 个 函数 作为 径 向 基 函 数 所 组 成 的 插值 矩阵 O 都 是 
正定 的 。 与 此 相反 ， 由 式 (5.17) 所 定义 的 多 二 次 函数 是 非 局 部 化 函数 ， 因 为 当 一 co 时，9?(r) 
是 无 界 的 ; 与 其 相对 应 的 插值 矩阵 四 有 N 一 1 个 负 的 特征 值 ， 只 有 一 个 正 的 特征 值 ， 所 以 不 是 
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正定 的 “Micchelli，1986)。 但 值得 注意 的 是 ， 在 Hardy 的 多 二 次 函数 基础 上 建立 的 插值 矩阵 
下 却 是 非 奇异 的 ， 因 此 适合 在 RBF 网 络 设计 中 应 用 。 

更 加 值得 注意 的 是 无 限 增长 的 径 向 基 函 数 ， 例 如 多 二 次 函数 ， 与 其 他 产生 正定 播 值 矩 阵 的 
函数 相 比 ， 能 以 更 高 的 精度 和 逼近 一 个 光滑 的 输入 -输出 映射 。Powell(1988) 讨论 了 这 个 令 人 惊 
奇 的 结果 。 


5.4 径 向 基 函 数 网 络 


受 式 (5. 10) 到 式 (5. 16) 的 启发 ， 现 在 我 们 可 以 预想 一 个 多 层 结 构 形 式 的 径 向 基 函 数 
(RBF) 网 络 ， 如 图 5. 3 所 示 ; 具体 有 三 层 : 

1. MAA, Hm 个 源 节点 组 成 ， 其 中 m 是 输入 向 量 x HAR. 

2. 隐藏 层 ， 由 和 训练 样本 的 大 小 N 相同 个 数 的 计算 单元 组 成 ， 每 个 单元 都 从 数学 上 用 一 
个 径 向 基 油 数 来 描述 .: 

gx) =g lxx d; j=1,2,.,N 

第 ;个 输入 数据 点 x; 定义 了 该 径 向 基 函 数 的 中 心 ， 向 量 x 是 作用 于 输入 层 的 信号 Cs. A 
此 ， 与 多 层 感 知 器 不 同 ， 源 节点 和 隐藏 单元 的 连接 是 直接 连接 ， 没 有 权 值 。 

3. 输出 层 ， 在 图 5. 3 的 RBF 结构 中 由 单一 计算 单元 构成 。 很 明显 ， 除 了 一 般 情 况 下 输出 
层 的 大 小 比 隐藏 层 的 大 小 要 小 得 多 之 外 ， 对 于 输出 层 的 大 小 没有 限制 。 

自 此 之 后 ， 我 们 重点 关注 高 斯 函数 作为 径 向 基 函 数 的 使 用 ， 在 这 样 的 情形 下 ， 图 5. 3 中 隐 
藏 层 的 每 个 计算 单元 可 以 定义 为 : 


g(x) = px—%) = exp(— sy lxx l?) jS 12N (5. 20) 


2o? 
其 中 oj 是 第 7 个 以 x 为 中 心 的 高 斯 函数 的 宽 的 测量 。 一 般 情 况 下 ， 高 新 隐藏 单 元 被 分 配给 一 
个 共用 的 宽 s。 在 这 一 类 情形 下 ， 将 隐藏 单 元 区 分 开 的 参数 是 中 心 x; 。 在 建立 RBF 网 络 时 选择 
高 斯 函数 作为 径 向 基 函 数 背后 的 基本 原理 是 它 具 有 多 个 所 希望 的 性 质 ， 随 着 讨论 的 进行 这 些 性 
质 将 变 得 很 明显 。 





输入 | 
向 量 x 








大 小 为 mo 的 大 小 为 N 的 大 小 为 1 的 
输入 层 隐藏 层 输出 层 


图 5.3 RBF 网 络 结构 ， 基 于 插值 理论 
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RBF 网 络 的 实际 修正 


图 5. 3 给 出 的 通过 插值 理论 的 RBF 网 络 形式 非常 整洁 。 然 而 在 实际 中 ， 我 们 发 现在 模式 
识别 或 者 非 线性 回归 的 背景 下 训练 样本 (x ad,}: 通 常 是 含 嗓 声 的 。 遗 憾 的 是 ， 基 于 噪声 数据 
使 用 插值 将 导致 引信 歧 途 的 结果 一 一 因此 需要 RBF 网 络 的 不 同 设计 途径 。 

需要 注意 的 另 一 个 实际 问题 是 :使 隐藏 层 具 有 和 输入 样本 个 数 相 同 的 大 小 可 能 导致 计算 资 
源 的 浪费 ,尤其 是 处 理 大 规模 训练 样本 时 。 当 RBF 网 络 的 隐藏 层 是 由 式 (5. 20) 描 述 的 方式 所 
指定 时 ， 我 们 发 现在 训练 样本 中 毗连 数据 点 之 间 存 在 的 相关 性 相应 地 移植 到 了 隐藏 层 的 毗连 单 
元 上 。 换 种 方式 讲 ， 当 通过 式 (5. 20) 选 择 隐藏 层 神 经 元 时 ， 由 于 训练 样本 中 可 能 存在 的 固有 元 
余 ， 隐 藏 层 神经 元 也 具有 宛 余 。 在 这 种 情况 下 ， 使 得 隐藏 层 的 大 小 是 训练 样本 大 小 的 一 部 分 因 
而 是 一 个 好 的 设计 实践 ， 如 图 .5.4 所 示 。 注 意 到 尽管 图 5. 3 和 图 5.4 的 RBF 网 络 是 确实 不 同 
的 ， 但 它们 有 一 个 共同 的 特征 ;与 多 层 感知 器 的 情况 不 同 ，RBF 网 络 的 训练 不 包括 误差 信号 
的 反 向 传播 。 

通过 这 两 个 RBF 结构 实现 的 逼近 函数 具有 相同 的 数学 形式 


K 
F(x) = ` woa) (5. 21) 


其 中 输入 向 量 x 的 〈 因 此 是 输入 层 的 ) 维 数 是 m。， 每 个 隐藏 单元 由 径 向 基 函 数 p(x,% ) 来 刻 
画 ， 其 中 了 = 1,2,…,K,K 比 N 要 小 。 输 出 层 假设 由 单一 单元 组 成 ， 由 权 值 向 量 w 来 刻画 ， 
其 维 数 也 是 KK。 图 5,3 和 图 5. 4 的 结构 在 两 个 方面 有 所 不 同 : 

1. 在 图 5. 3 中， 隐藏 层 的 维 数 是 N， 这 里 N 是 训练 集 的 大 小 ， 而 图 5.4 中 隐藏 层 维 数 KN, 

2. 假设 训练 样本 《xi ,d;) 祈 :是 无 噪声 的 ， 图 5. 3 的 隐藏 层 的 设计 可 通过 简单 地 利用 输入 向 
量 x 来 定义 径 向 基 水 数 g(x,%)(j 一 1,2,…,N) 的 中 心 。 而 为 了 设计 图 5.4 中 的 隐藏 层 ， 我 
们 需要 讨论 新 的 过 程 。 

下 一 节 将 对 于 隐藏 层 使 用 高 斯 函数 的 情况 ， 从 实际 的 角度 说 明 上 述 的 第 2 点 。 


输入 
向 量 x 





y=F (x) 








大 小 为 mo 的 大 小 为 K<N 的 大 小 为 1 的 
隐藏 层 


输入 层 输出 层 


图 5.4 实际 RBF 网 络 的 结 斧 。 注 意 这 一 网 络 从 结构 上 和 图 5. 3 相似 ， 然 而 两 个 网 
络 是 不 同 的 ， 图 5.4 中 隐藏 层 的 大 小 小 于 图 5. 3 中 隐藏 层 的 大 小 
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5.5 KK- 均 值 聚 类 


在 设计 图 5.4 的 RBF 网 络 时 ， 需 要 解决 的 一 个 关键 问题 是 如 何 利 用 无 标签 数据 来 计算 构 
成 隐藏 层 的 高 斯 单元 的 参数 。 换 名 话说， 这 一 计算 是 在 非 监 督 方 式 下 完成 的 。 存 本 节 中 ， 我 们 
描述 关于 这 一 问题 的 根植 于 聚 类 的 一 个 解 ， 其 意义 如 下 : 

聚 类 是 非 监 督学 习 的 一 种 形式 ， 它 将 一 个 观测 集 (PRES) 划分 到 自然 组 或 者 模式 聚 
类 。 聚 类 的 途径 是 测量 分 配给 每 个 聚 类 的 观测 对 之 间 的 相似 性 以 最 小 化 一 个 指定 的 代价 函数 。 


有 很 多 聚 类 技术 可 供 选择 。 我 们 选择 重点 关注 所 谓 的 天 -均值 (K-means) 的 算法 ， 因 为 
它 简 单 易 实现 ， 同 时 有 和 良好 的 性 能 ， 以 上 两 个 特征 使 得 该 算法 高 度 普及 。 

令 fz5} 衬 :表示 一 个 用 于 划分 到 K 个 聚 类 的 多 维 观 测 集 ， 其 中 K 小 于 观测 数 N 。 令 关系 : 

j= CG), i = 1,2, N (5. 22) 

表示 一 个 多 对 一 映射 器 ， 称 为 编码 器 ， 它 将 第 i 个 观测 x, 根据 某 种 仍然 需要 定义 的 规则 分 配 到 
第 7 个 聚 类 中 。( 细 心 的 读者 会 奇怪 为 什么 我 们 选择 索引 ; 来 表示 一 个 聚 类 ， 而 合乎 逻辑 的 选 
择 应 该 是 上 ;这 个 选择 的 理由 是 符号 & 被 用 于 表示 将 在 本 章 后 面 讨论 的 核 函 数 ,) 为 了 进行 这 
样 的 编码 ， 我 们 需要 在 向 量 x 和 xi 对 之 间 的 相似 性 度量 ， 记 为 4Cx ,xz )。 当 测度 dK IE 
够 小 的 时 候 ，x 和 xy 被 分 配给 相同 的 聚 类 ; 否则 ， 它 们 被 分 配给 不 同 的 聚 类 。 

为 了 最 优化 这 个 聚 类 过 程 ， 我 们 引入 下 面 的 代价 函数 《Hastie 等 ，2001) : 


HOH ZY Ddaw) (5. 23) 
对 于 预先 指定 的 KK， 要 求 找 到 使 得 代价 函数 J(C) 最 小 的 编码 器 CO=j. HNC, RNER 
到 编码 器 C 是 未 知 的 因此 代价 函数 了 依赖 于 C 。 





在 玉 - 均 值 聚 类 中 ， 欧 几 里 得 范 数 的 平方 用 于 定义 在 观测 x 和 x 之 闻 的 相似 性 度量 ， 如 下 
所 示 : 


d(x sx) = || x— x ||? (5. 24) 
因此 ， 将 式 (5. 24) 代 人 式 (5. 23207, RNA 
I) =5) S Ville (5. 25) 
现在 给 出 如 下 两 点 : 
1. 观测 x, 和 x; 之 间 的 欧 儿 里 得 距离 的 平方 是 对 称 的 ， 即 
\ X; — Xr \ a= | X; — X; \ z 


2. 式 (5.25) 的 内 部 和 可 以 如 下 解释 ， 对 于 给 定 的 x: ， 编 码 器 C 将 所 有 和 x 最 近 的 观测 x, 
分 配给 聚 类 1 。 除 了 一 个 尺度 因子 ， 这 样 分 配 的 观测 x 的 和 是 属于 聚 类 j 的 均值 向 量 估计 ; 这 
里 的 尺度 因子 是 1/N;， 其 中 Ni BRK 中 数据 点 的 个 数 。 

由 于 这 两 点 ， 可 以 将 式 (5. 25) 简 化 为 : 

J(C) = >) Ds I (5. 26) 

XH, 记 为 属于 聚 类 7 的 “估计 ”均值 向 量 '。 实 际 上 ， WR 可 以 看 成 是 聚 类 7 的 中 心 。 受 
RG. 26) 的 启发 ， 现 在 可 以 将 聚 类 问题 重新 描述 如 下 : 

给 定 N 个 观测 值 的 集合 ， 通 过 以 下 方式 寻找 编码 器 C: 将 这 些 观 测 值 分 配给 KK 个 聚 类 ， 
使 得 在 每 个 聚 类 中 ， 给 定 的 观测 值 与 聚 类 均值 的 不 相似 性 的 平均 度量 最 小 。 

当然 ， 正 是 由 于 这 一 陈述 的 本 质 ， 这 里 所 描述 的 聚 类 技术 通常 称 为 KK- 均值 算法 。 
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对 于 式 (5. 26) 中 定义 的 代价 函数 J(C) 的 解释 ,我 们 可 以 这 样 说 ， 对 于 给 定 的 编码 器 C, 
除了 尺度 因子 1/N;， A AWAARA j RRIA E fa, 如 下 所 示 : 


= lx- ê l? (5. 27) 


Csi 


相应 地 ， 可 以 将 代价 函数 J(C) 看 作 通 过 编码 器 C 将 所 有 NN 个 观测 分 配给 天 个 聚 类 的 总 聚 类 方 
差 的 测度 。 
当 编 码 器 C 未 知 时 ， 如 何 最 小 化 代价 函数 IO? 为 了 解决 这 一 关键 问题 ， 我 们 利用 迭代 
降 算 法 ， 这 一 算法 的 每 一 次 迁 代 包含 两 步 最 优化 。 第 一 步 对 于 给 定 的 编码 器 C 利用 最 邻近 规 
则 来 最 小 化 式 (5. 26) 的 代价 函数 JKC)( 关 于 均值 向 量 应 )。 第 二 步 对 给 定 的 均值 向 量 应 最 小 化 
式 (5. 26) 的 内 部 和 《关于 编码 器 C)。 连 续 进 行 这 样 的 两 步 迭 代 过 程 直 到 收敛 为 止 。 
因此 ， 从 数学 上 ，K- 均 值 算法 分 两 步 进行 ': 
第 1 步 ” 对 于 给 定 的 编码 器 C， 关 于 聚 类 均值 { 记 六 ,最 小 化 总 聚 类 方差 : 即 完成 下 面 的 
最 小 化 : 
mind) lx pl 对 于 给 定 的 C (5. 28) 


h- j=i CC 


第 2 步 在 第 1 步 中 已 经 计算 了 最 优 到 类 均值 {Bt ) 庆 ;， 下 一 步 最 小 化 编码 器 : 





C(i) = arg min | x — pi; ||? (5. 29) 


从 一 些 最 初 选 择 的 编码 器 C 开始 ， 算 法 在 这 两 步 之 间 来 回 进行 ， 直到 在 聚 类 分 配 上 没有 进一步 
的 变化 为 止 。 

这 两 步 中 的 每 一 步 都 被 设计 为 按 其 自身 的 方式 降低 代价 函数 J(C); 因此 ， 算 法 的 收敛 性 
是 可 以 保证 的 。 然 而 ， 由 于 算法 缺少 全 局 最 优 准 则 ， 结 果 可 能 收敛 于 局 部 最 小 值 ， 导 致 对 聚 类 
分 配 的 次 优 解 。 无 论 如 何 ， 这 一 算法 具有 实际 上 的 优势 : 

1. K- 均 值 算法 是 计算 有 效 的 ， 其 计算 复杂 度 对 于 育 类 数 月 而 言 是 线性 的 

2. he etm Kn 3 间 中 时 ， 它 们 由 算法 忠实 再 现 。 

， 为 了 初始 化 K- 均 值 算法 ， 建 议 采 用 以 下 步骤 对 建议 的 大 小 K， 对 于 均值 
aor, OLA RIAN ELI AP 然后 选择 使 得 式 (5. 26) 中 的 双重 和 具有 最 小 值 的 集合 
(Hastie 等 ，2001)。 

KK- 均值 算法 适用 于 Cover 定理 框架 

K- 均 值 算法 对 输入 信和 号 x 应 用 了 非 线 性 变换 。 我 们 这 样 说 是 因为 其 不 相似 测度 〈“ 即 这 一 算 
法 的 基础 ， 欧 几 里 得 距离 的 平方 | x—x, ‖:〉 是 对 于 给 定 的 聚 类 中 心 x 而 言 关于 输入 信号 x 的 
非 线性 函数 。 而 且 ， 由 天- 均值 算 法 揭示 的 每 个 聚 类 定义 了 隐藏 层 的 一 个 特殊 的 计算 单元 ， 如 
果 聚 类 数目 K 足够 大 ，K- 均 值 算法 将 满足 Cover 定理 的 其 他 要 求 ， 即 隐藏 层 维 数 足 够 高 。 因 
此 得 出 结论 : 根据 这 一 定理 ，K- 均 值 算法 确实 有 足够 的 计算 能 力 将 非 线性 的 可 分 离 模式 集合 
转化 为 可 分 离 模 式 。 

现在 这 一 目的 已 经 得 到 了 满足 ， 我 们 就 可 以 考虑 设计 RBF 网 络 的 线性 输出 层 了 。 


5.6 权 向 量 的 递归 最 小 二 乘 估 计 
开 - 均 值 算法 的 计算 是 用 递归 方式 来 实现 的 。 因 此 需要 重 做 最 小 二 乘法 一 一 在 第 2 章 中 讨论 


过 一 一 对 RBF 网 络 输出 层 的 权重 向 量 的 计算 ， 也 用 递归 的 方式 来 实现 。 为 了 这 一 目的 ， 我 们 


将 式 (2. 23) 改 写 为 以 下 形式 
R(n) Wn) = rn), n=1,2,-, (5. 30) 


154 .第 5 章 HAME E a 


这 里 所 有 三 个 量 都 表达 为 离散 时 间 ”的 函数 。 在 书写 这 个 统计 学 上 称 为 法 方程 的 时 候 ， 我 们 引 
和 了 三 个 项 : 
1. 隐藏 单元 输出 的 KXK 相关 函数 ， 由 下 式 定义 : 


R(n) = >) oax) PT Cx) (5. 31) 
其 中 
中 (xi ) = [gxi XK) PX Ka) pX 9 Xx) I? (5. 32) 
和 
pan) = exp(— 4 lx — x Jj = 120K (5. 33) 
a 2a? : 7 , , 
2. RBF 网 络 输 出 的 期 望 响应 和 隐藏 单元 输出 之 间 的 KX1 互相 关 向 量 ， 定 义 为 ; 
r(n) = >) Pad) (5. 34) 


3. APRAAEWn), CER) ORE RL. 

要 求 对 权 值 向 量 wn) 求 解 式 (5. 30) ATT. GR. WW HARKER) 的 逆 矩 
阵 ， 然 后 将 求 得 的 逆 和 矩阵 ROO 和 互相 关 向 量 r(x) 相 乘 ， 这 就 是 最 小 二 乘法 所 做 的 。 然 而 ， 
当 隐 藏 层 大 小 玉 很 大 时 ， 通 常情 形 下 对 于 n= K 计算 逆 矩 阵 R-:(z) 是 一 个 吃力 的 任务 。 所 计 
划 的 运用 最 小 二 乘法 的 递归 执行 将 应 对 这 一 计算 困难 。 其 结果 算法 称 为 递归 最 小 二 乘 (RLS) 
算法 * ， 关 于 这 一 算法 的 推导 将 在 下 面 讨论 。 

RLS 算法 
通过 重新 组 织 式 (5. 34) 的 互相 关 向 量 r(n) 来 开始 推导 RLS 算法 ， 如 下 所 示 : 


r(n) 一 5 xdd GD HOCA) = rin — 1) + 06%, dn) 


= R(n— 1) (n — 1) +ọ(x,)d(n) (5. 35) 
其 中 ， 在 第 一 行将 相对 于 i= 的 项 从 式 (5. 34) 的 和 中 独立 出 来 ， 最 后 一 行 利用 了 式 (5. 30), 
用 nn 一 1 来 代替 n。 然 后， 在 式 (5. 35) 的 右边 有 目的 地 加 上 项 中 (n) 中 "(nn)W(n 一 1) 并 在 等 式 的 男 
一 部 分 减 去 相同 项 ， 使 得 方程 本 身 没 有 改变 ;因此 可 以 写 出 (在 提取 公共 因子 后 ): 
rm) = [R(n — 1) +o) Pm] Rn — 1) +: b(n) [d() — 7 (n) Wn—1)] (5.36) 
在 式 (5. 36) 右 边 第 一 个 方 括 号 中 的 表达 式 被 认为 是 相关 函数 : . 
R(n) = R(n — 1) + Cn) 67 (n) (5. 37) 


在 式 (5. 36) 右 边 第 二 个 方 括号 中 的 表达 式 中 ， 引 人 了 一 个 新 的 项 : 
a(n) = d(n) — 67 (n)w(n— 1) = d(n) — w (n— 1) O(n) (5..38) 





这 一 新 的 项 称 为 先 验 估计 误差 ， 这 里 使 用 “ 先 验 ” 是 为 了 强调 估计 误差 a(n) 是 基于 权 值 向 

量 冯 (mn 一 1) 的 老 的 估计 的 〈 即 在 权 值 估计 被 更 新 “之 前 ”)。a(ln) 也 称 为 “革新 ”， 因 为 嵌入 中 Cn) 

中 的 输入 向 量 x(n) 和 其 相应 的 期 望 响应 4(n) 表 示 第 n 步 时 间 估 计时 作用 于 算法 的 “新 ”信息 。 
回 到 式 (5. 36), ， 利 用 式 (5. 37) 和 式 (5. 38) 将 问题 简化 为 : 


rín) = R(n) Wn— 1) + OC a(n) (5. 39) 
相应 地 ， 将 这 一 方程 应 用 到 式 (5. 30) 中 得 到 : 
Rn) Win) = R(n) WOn— 1) + OC a(n) (5. 40) 
这 可 以 表达 为 更 新 权 值 的 期 望 形式 ， 如 下 所 未 : 
Win) = Wn Oo— 1) +R! Ca) b(n) a(n) (5. 41) 


这 里 在 式 (5. 40) 的 两 边 同时 乘 以 逆 算 阵 R :Caz) 。 然 而 ， 为 了 以 计算 有 效 方式 来 实现 这 一 更 新 ， 
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我 们 需要 相应 的 通过 给 定 其 过 去 值 R a- DR SS R (nm) 的 公式 。 这 一 问题 将 在 下 
面 讨论 。 
计算 R '(n) 的 递归 公式 

回 到 式 (5. 37)， 可 以 看 到 确实 有 一 个 公式 递归 地 更 新 相关 和 矩阵 R(x)。 我 们 关注 这 一 递归 
式 ， 通 过 利用 矩阵 逆 引 理 得 到 道 矩 阵 R(xn) 的 递归 形式 ， 而 和 矩阵 逆 引 理 已 经 在 4.14 节 讨 论 
过 了 。 

作为 扼要 概述 ， 考 虑 矩阵 ， 

A 一 了 B- 二 CDC (5. 42) 

ARR B 是 非 奇 异 的 且 和 矩阵 B ' 因 而 存在 。 和 矩阵 A 和 B 具 有 相同 维 数 ， 和 矩阵 DD 是 男 一 个 
具有 不 同 维 数 的 非 奇 异 矩 阵 ， 和 矩阵 C 是 具有 合适 维 数 的 矩形 矩阵 。 根 据 矩 阵 逆 引 理 ， 得 到 |，: 


A 一 B 一 BCCOD 十 CTBC)-IC7B (5. 43) 
对 于 这 个 问题 ， 使 用 式 (5. 37) 来 做 如 下 标示 : 
A= R(n) 
B© = R(n— 1) 
C= b(n) 
D=1 


相应 地 ， 式 (5. 43) 作 用 于 这 一 矩阵 特殊 集 就 产生 : 
R- (2 一 1) 中 (2) 67 (RI (n — 1) 





Rn = R! (n— 1) 1ER (n — 1) o@) (5. 44) 
这 里 ， 在 方程 右 端 第 二 项 ， 我 们 利用 了 相关 和 矩阵 的 对 称 性 ; BD 
R’(n— 1) = R(n— 1) 
为 了 简化 RLS 算法 的 公式 ， 我 们 现在 介绍 两 个 新 的 定义 : 
1. R! (G1) =P(n) 
因此 ， 将 式 (5. 44) 重 写 为 : 
P(n) = Po 一 1) P(n— 1) b(n) 67 (a) Pin — 1) (5. 45) 





1+67 (WP — 1) 中 (2) 
这 里 方程 右边 的 分 母 是 二 次 形式 因而 是 一 个 标量 。 
为 了 说 明 P(n)， 考 虚线 性 回归 模型 : 
dln) = w° b(n) teln) 
作为 期 望 响应 do) 的 一 般 模 型 ， 中 (2 是 回归 量 。 假 设 附 加 噪声 项 MAAR, 具有 0 均值 和 
oz 的 方差 。 然 后 ， 将 未 知 权 值 向 量 w 看 成 模型 的 状态 且 冯 (n) 是 由 RLS 算法 产生 的 估计 ， 定 义 
”状态 误差 协 方差 矩阵 如 下 : 


EL Cw — & Cn) ) Cw WO) = Pn) (5. 46) 
对 于 这 一 结果 的 证 明 在 习题 5. 5 中 给 出 。 
2. gm) = R! (n) O(n) = P(n) O(n) (5. 47) 


新 的 项 g(n) 称 为 RLS 算法 的 增益 向 量 (gain vector), AW, 根据 式 (5. 41) 可 以 将 先 验 估 
计 误 差 a(n) 和 g(z) 的 冬 积 看 成 是 将 老 的 估计 六 (2 一 1) 更 新 到 新 值 名 (2 的 校正 ， 如 下 所 示 : 


Win) = Wn— 1) 4+ g(a) (5. 48) 
RLS 算法 小 结 ” 
有 了 式 (5. 45) 、 式 (5. 47) 、 式 (5. 38) 和 式 (5.48) ， 根 据 这 样 的 顺序 ， 现 在 可 以 给 出 如 下 
RLS 算法 的 小 结 : ` 


156-8358 核 方法 和 径 向 基 函 数 网 络 


P(n 一 1) on) 中 (2)P(2 — 1) 


PC) = Pon D- TFE a Pn — 1) OG) 





gn) = P(n) b(n) 

a(n) = d(n) — ° (a — 1) b(n) 

W(n) = W(n—1)+ 8(n)a(n) 
为 了 初始 化 这 一 算法 ， 令 





wo) = 0 
A | 
P(0) =al, 4 是 小 的 正常 数 
注意 算法 初始 化 中 使 用 的 ) 提供 了 代价 函数 中 正则 化 参数 的 规则 ， 
g (w) = Sua —w' bi)? +a lwll? 


这 里 A 选择 相对 较 小 的 数 ， 这 是 一 个 典型 的 情况 ， 然 后 ， 我 们 非 直接 地 确认 训练 样本 xG), 
dD AYRE 


5.7 RBF 网 络 的 混合 学 习 过 程 


根据 5. 5 节 介 绍 的 开 - 均 值 聚 类 算法 和 5. 6 节 推导 的 递归 最 小 二 乘 (RLS) 算法 ， 现 在 我 
们 可 以 给 出 图 5.4 的 RBF 网 络 的 混合 学 习 过 程 *s。 首 先 将 及 -均值 算法 用 于 训练 隐藏 层 ， 然 后 利 
用 RLS 算 法 来 训练 输出 层 。 此 后 ， 我 们 将 这 一 混合 学 习 过 程 称 为 “K- 均 值 ，RLS” 算 法 , E 
的 是 用 下 面 的 过 程 来 训练 RBF 网 络 。 

WAR 输入 层 的 大 小 是 由 输入 向 量 x 的 维 数 决定 的 ， 记 为 m. 

隐藏 层 

1. 隐藏 层 的 大 小 m ERFUHR K 决定 的 。 PRE, SA K 可 以 看 成 是 在 设计 者 
控制 下 的 自由 度 。 因 此 ， 参 数 K 是 模型 选择 问题 的 关键 并 因而 不 仅 控制 着 性 能 而 且 控制 着 网 
络 的 计算 复杂 度 。 

2. 聚 类 均值 记 ， 由 工作 于 输入 向 量 作为 无 标志 样本 {x,) 六 之 上 的 天 -均值 算法 来 计算 ， 决 
定 了 分 配给 隐藏 单元 ) 一 1,2,…,K 的 高 斯 函数 pg(，,%) 的 中 心 %。 

3. 为 了 简化 设计 ， 记 为 o 的 相同 的 宽度 被 分 配给 所 有 的 高 斯 函数 ， 和 天 -均值 算法 揭示 的 
中 心 的 散布 相 一 致 ， 如 下 所 示 : 





dmax 
o= JK (5. 49) 
这 里 KK BAUME, dak EMBRAER (Lowe，1989)。 这 一 公式 保证 了 各 个 高 斯 单 
元 不 是 太 人 尖峰 也 不 是 太平 坦 ; 这 两 种 极端 情况 在 实际 中 都 可 以 得 到 避免 。 
输出 层 一 旦 隐藏 层 的 训练 完成 后 ， 就 可 以 开始 输出 层 的 训练 了 。 令 KX1 向 量 
Q(X; 9X) 
b(x,) = PX) 
opCXi ,Xx ) 
定义 为 隐藏 层 K 个 单元 的 输出 。 这 个 向 量 是 响应 于 刺激 coi = 1,2…,N 而 产生 的 。 因 此 ， 目 
前 所 考虑 过 的 输出 层 的 监督 训练 中 ， 训 练 样本 可 定义 为 {中 (xi) di}, AP di 是 对 输入 x 的 
RBF 网 络 的 总 输出 的 期 望 响应 。 这 一 训练 是 通过 RLS 算法 来 进行 的 。 一 旦 网 络 训练 完成 ， 就 
可 以 开始 使 用 没有 出 现 过 的 数据 来 测试 整个 网 络 。 
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“KK- 均 值 ，RLS” 算 法 的 一 个 有 了 吸引 力 的 特征 是 它 的 计算 高 效 性 ， 这 是 由 于 天- 均值 和 RLS 
算法 都 在 其 各 自 的 方式 上 是 计算 高 效 的 这 一 事实 。 这 一 算法 唯一 可 疑 的 特征 是 缺少 将 隐藏 层 的 
训练 和 输出 层 的 训练 结合 起 来 的 总 的 最 优 准 则 ， 从 而 在 统计 意义 上 保证 整个 系统 的 最 优 性 。 


5.8 计算 机 实验 : 模式 分 类 


本 节 我 们 用 一 个 计算 机 实验 来 评价 用 于 训练 RBF 网 络 的 “K- 均 值 ，RLS” 算 法 的 模式 分 
类 性 能 。 这 一 实验 所 使 用 的 数据 是 通过 对 图 1. 8 的 双 月 结构 随机 采样 而 获得 的 。 这 一 实验 的 具 
体 目 的 是 比较 其 性 能 : 通过 这 一 途径 训练 的 网 络 的 性 能 和 通过 利用 反 向 传播 算法 训练 的 多 层 感 
知 器 (MLP) 的 性 能 。 而 MLP 的 性 能 已 经 在 第 4. 7 节 完 成 的 实验 中 集中 讨论 了 。 

RBF 网 络 的 隐藏 层 选择 包含 20 个 高 斯 单元 ， 因 此 这 和 第 4.7 节 中 MLP 的 隐藏 层 采 用 了 
相同 的 大 小 。 为 了 训练 RBF 网 络 ， 使 用 了 1 000 个 数据 点 ; 对 于 测试 ， 使 用 了 2 000 个 数据 
点 。 与 MLP 实验 的 方式 相似 ， 对 两 个 不 同 的 双 月 图 设置 ，4d 一 一 5 和 4 一 一 6， 进行 RBF 实 
验 ， 后 者 是 这 两 者 中 更 难 的 一 个 。 

(a) 重 直 分 隔 : d 一 一 5 

对 于 这 个 在 两 月 之 间 的 垂直 分 隔 ， 天 = 20 被 分 配给 聚 类 数 〈 即 隐藏 单元 个 数 ) 。 通 过 应 用 
K- 均 值 算 法 作用 于 训练 样本 的 无 标志 部 分 ， 聚 类 的 中 心 以 及 因此 而 来 的 隐藏 层 中 高 斯 单元 的 
中 心 就 被 决定 了 。 由 于 中 心 的 散布 是 已 知 的 ， 则 利用 式 (5. 49) 的 公式 来 计算 分 配给 高 斯 单元 的 
共同 宽 c 一 2.6。RBF 网 络 隐藏 层 的 设计 就 完成 了 。 最 后 ，RLS 算法 被 用 于 训练 输出 层 ， 从 而 
计算 决策 边界 ， 为 测试 阶段 准备 好 了 途径 。 

实验 第 一 部 分 的 结果 在 图 5. 5 中 给 出 。 图 5. 5a 给 出 了 RLS 算法 的 学 习 曲 线 ， 图 5. 5b 给 
出 了 RBF 网 络 所 学 习 的 决策 边界 。 如 图 5. 5a 所 示 ， 在 两 个 回合 的 训练 之 后 ， 输 出 层 的 设计 就 
完成 了 。 图 5. 5b 确认 了 RBF 网 络 几乎 能 够 完美 地 将 两 个 月 亮 形状 的 模式 分 离开 。 

(b) 垂直 分 隔 : d=—6 

然后 重复 RBF 网 络 关于 模式 分 类 的 实验 ， 这 一 次 对 于 图 1. 8 的 双 月 结构 给 出 了 更 加 困难 
的 设置 。 这 次 ， 共 同 宽 c 一 2. 4 被 分 配给 20 个 高 斯 单元 ， 该 分 配 再 次 根据 式 (5. 49) 给 出 。 














学 习 曲 线 利用 RBF 网 络 分 类 ， 距离 =-5， 半径 =10， 宽 =6 
0.024 12 
0.022 10 
0.02 8 
0.018 上 6 
0.016 
2 oma | Ba 
g 0.014 2 
0.012 0 
0.01 | -2 
0.008 上 -4 
0.006 上 -6 
0.004 — = 
10 20 30 40 50 -10 -5 0 5 10 15 20 
回合 数 x 
a) 学 习 曲线 b) 测试 结果 


图 5.5 4 d=—5 时 用 KK- 均值 和 RLS 算法 训练 的 RBF 网 络 。 图 a 中 的 MSE 表示 均 方 误差 


图 5.6 中 给 出 实验 第 二 部 分 的 结果 ， 图 5. 6a 给 出 了 RLS 算法 的 学 习 曲 线 ， 图 5. 6b 给 出 
了 在 “K- 均 值 ，RLS” 算 法 训练 结果 下 RBF 网 络 学 习 的 决策 边界 。 在 2 000 个 测试 数据 点 中 总 
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共 报 告 有 10 个 分 类 错误 ， 产 生 的 识别 误差 率 是 0. 5%。 
对 于 实验 的 〈a) 部 分 和 Cb) 部 分 ,在 RBF 网 络 的 单一 输出 处 的 分 类 闭 值 被 设 为 零 。 
学 习 曲 线 利用 RBF 网 络 分 类 ， 上 距离 =-6， 半 径 =10， 宽 =6 
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图 5.6 “4d=—6 时 用 天 -均值 和 RLS 算法 训练 的 RBF 网 络 。 图 5. 6a 中 的 MSE 表示 均 方 误差 


比较 MLP 和 RBF 结果 

将 本 节 中 RBF 网 络 完成 的 实验 (a) A Cb) 的 结果 和 4.7 节 中 MLP 完成 的 对 应 的 实验 结 
果 相 比较 ， 我们 得 出 如 下 结论 : 

1. 用 “K- 均 值 ，RLS” 算 法 训练 的 RBF 网 络 胜 过 用 反 向 传播 算法 训练 的 MLP。 具 体 来 
说 ， 当 双 月 结 构 中 d=—5 时 MLP 不 能 达到 完美 分 类 ， 而 RBF 网 络 报告 了 近乎 完美 的 分 类 。 
对 于 困难 的 设置 d=—6, RBF 网 络 产生 的 误 识 率 是 0. 5%， 比 MLP 算法 对 于 容易 的 设置 d= 
一 5 时 所 得 到 的 误 识 率 0. 15% 要 稍微 差 一 些 。 当 然 ，MLP 的 设计 可 以 得 到 改进 。 然 而 ， 我 们 
同样 可 以 说 RBF 网 络 也 可 以 得 到 改进 。 

2. RBF 网 络 的 训练 过 程 明 显 比 MLP 的 训练 过 程 快 。 


5.9 高 斯 隐藏 单元 的 解释 


感受 野 思 想 

在 神经 生物 学 中 ， 感 受 野 (receptive field) 定义 为 “感觉 场 的 区 域 ， 其 中 充分 的 感觉 刺激 
将 引起 响应 ”(Churchland and Sejnowski，1992) 。 一 个 有 趣 的 现象 是 ， 在 视 皮 层 的 更 高 区 域 
中 细胞 的 感受 野 倾 向 于 远大 于 视觉 系统 的 早期 阶段 的 细胞 。 

根据 感受 野 这 一 神经 生物 学 上 的 定义 ， 我们 可 以 想象 每 个 神经 网 络 的 隐藏 单元 都 具有 一 个 
其 自身 的 感受 野 。 实 际 上 ， 我 们 可 以 继续 做 如 下 对 应 的 陈述 : 

神经 网 络 中 计算 单元 (如 隐藏 单元 ) 的 感受 野 ， 通 常 是 指 感 觉 场 (例如 ， 源 节点 的 输入 
层 ) 的 区 域 ， 其 中 充分 的 感觉 刺激 〈 如 模式 ) 将 引起 响应 。 

这 一 定义 可 以 很 好 地 等 价 应 用 于 多 层 感 知 器 和 RBF 网 络 。 然 而 ， 关 于 感受 野 的 数学 描述 
在 RBF 网 络 下 比 多 层 感知 器 下 更 容易 决定 。 

令 oxox ) 定 义 计算 单元 关于 输入 向 量 x 的 函数 依赖 ， 这 一 单元 是 以 x 为 中 心 的 。 根 据 


Xu 等 (1994)， 计 算 单 元 的 感受 野 定义 为 
` p(x) = g(x,x;)) —a (5. 50) 
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这 里 a 是 某 个 正常 数 。 用 文字 表达 ， 这 一 方程 说 明 ， 函 数 p(x,% ) 的 感受 野 是 输入 向 量 x 的 范 
围 的 特别 子 集 。 对 于 x， 函数 p(x,x;) 有 充分 大 的 值 ， 所 有 这 些 值 都 等 于 或 者 大 于 预先 指定 的 a 
级 别 。 
例 2 高 斯 隐藏 单元 的 感受 野 
考虑 由 下 式 定义 的 高 斯 计算 单元 
p(X,X;) = exp(~ z5 | x—x; | 
根据 式 (5. 50)， 这 一 单元 的 感受 野 是 
gx) 一 exp(— 553 | x — x; |l ‘la 
这 里 <<1。Y(x) 的 最 小 允许 值 是 零 ， 对 此 方程 产生 


| x—x, | =0,/2I0g(+) 


因此 高 斯 函数 osx) 的 感受 野 由 多 维 曲 面 定义 ,在 以 点 x 为 中 心 的 周围 以 一 种 类 似 球体 的 
方式 对 称 。 感 受 野 的 类 似 球体 对 称 性 质 是 从 高 斯 函数 自身 自然 继承 的 。 

图 5.7 给 出 了 这 一 曲面 的 两 个 具体 例子 : 

1. 一 维 感受 野 br), IERA z 的 范围 被 限制 于 闭 区 间 CC o V2log(1/a))，(zi 十 


o V2log(1/a)))] 中 ， 如 图 5.7a 所 示 。 
2. 二 维 感 受 野 yj(x)， 对 此 输入 x 的 范围 被 限制 在 中 心 为 x SL rnrn] KARE, ER 


Æ o V2log(1/a)， 如 图 5.7b 所 示 。 C] 


oV 2log (1/a) 





2o V2log (1/a) 
一 一 一 一 
0 





a) 


图 5.7 对 两 个 具体 情形 关于 感受 野 概念 的 图 示 : a 一 维 ; bd 二 维 


高 斯 函数 作为 核 的 解释 

高 斯 函数 ox ) 的 另 一 个 重要 方面 是 它 可 以 被 解释 为 一 个 核 ， 这 是 在 统计 学 文献 中 广泛 
使 用 的 术语 ; 在 机 器 学 习 文献 中 的 使 用 也 在 渐渐 普及 。 

考虑 一 个 依赖 于 输入 向 量 x 的 函数 ， 其 中 心 处 在 欧 几 里 得 空间 的 原点 。 记 为 &Cx) 的 核 函 
数 形式 的 基础 是 ， 这 一 函数 具有 和 随机 变量 的 概率 密度 函数 相似 的 性 质 : 

性 质 1 核 k(x) 是 关于 Xx 连续 、 有 界 的 实 函 数 ， 关 于 原点 对 称 ， 在 原点 处 获得 最 大 值 。 

性 质 2 在 核 &Cx) 的 曲面 下 的 总 体积 是 1; 即 对 于 一 个 m 维 的 向 量 Xx， 我 们 有 

| ecodx= 1 


除了 一 个 尺度 因子 ， 对 于 中 心 x; 处 于 原点 时 高 斯 函数 g(x,x;) 满 足 这 两 个 性 质 。 对 于 非 零 
的 x; 性质 1 和 2 仍然 保持 ， 因 为 x; 代替 了 原点 。 
正 由 于 高 斯 函数 可 以 解释 为 核 ， 因 此 本 章 大 标题 采用 了 术语 “ 核 方法 ”。 


160 .第 5 章 核 方 法 和 径 向 基 沙 数 网 络 


5.10 核 回 归 及 其 与 RBF 网 络 的 关系 


在 第 5. 3 节 中 介绍 的 RBF 网 络 理论 是 建立 在 插值 概念 之 上 的 。 在 本 节 中 ， 我 们 采取 男 一 
个 观点 -一 - 核 回 归 ， 这 是 建立 在 密度 估计 概念 之 上 的 。 

具体 来 说 ， 考 虑 由 下 式 定 义 的 非 线性 回归 模型 ; 

六 一 jg) 十 gs， 一 1 2 (5.51) 

其 中 s(G 是 附加 的 白 噪 项， 其 均值 为 0 方差 为 性 。 为 了 避免 混淆， 使 用 符号 和 (代替 了 前 面 所 
用 的 d) 来 标记 模型 的 输出 。 作 为 未 知 回归 函数 f(x) 的 合理 估计 ， 我 们 可 以 取 点 x 附近 可 观 
测量 〈 即 模型 输出 y 的 值 ) 的 均值 。 然 而 ， 要 使 这 一 途径 成 功 ， 局 部 平均 将 被 限制 在 点 x 周围 
的 小 邻 域 〈 即 感受 野 ) 中 的 观测 值 里 ， 因 为 通常 对 应 于 远离 x 的 点 的 观测 将 具有 不 同 的 均值 。 
更 精确 地 ， 我 们 发 现 未 知 函 数 /Kx) 等 价 于 给 定 回 归 量 x 时 观测 y 的 条 件 均 值 ， 如 下 所 示 : 


f&a) =ELy|x] = | xpvin(y| Day (5. 52) 

这 里 py) x(y |x) ARE ER (pdf) ， 该 函数 是 在 随机 疝 量 X 赋值 为 z 的 条 件 下 ， 关 于 
随机 变量 Y 函数 * 。 由 概率 理论 ， 我 们 有 

pylx (y |x) = Pua xl? (5. 53) 


这 里 是 px (x) EX AY pdf, p.., (x,y) SEX MY 的 联合 pdf。 因 此 ， 将 式 (5. 53) 代 人 到 式 (5. 52), 
获得 下 面 的 回归 了 消 数 公式 : 














| per Gey dy 
fx) = Bx x) 

我 们 的 特别 兴趣 在 于 pxy (x,y) 的 联合 概率 密度 函数 未 知 而 我 们 所 能 用 的 仅 是 训练 样本 
{x yyD))N 这 一 情况 。 为 了 估计 pxy (Xx;y) 以 及 px(x)， 可 以 利用 熟知 的 Parzen-Rosenblatt 密 
度 估 计 CRosenblatt, 1956, 1970; Parzen, 1962) 这 一 非 参数 估计 。 这 一 估计 形成 的 基础 在 
于 核 ECx) 的 可 用 性 。 假 设 观测 x ,xs ,… ,xw 是 统计 独立 同 分 布 的 (iid)， 我 们 可 以 定义 fr (x) 的 
Parzen-Rosenblatt 密度 估计 如 下 、 


boo) = naw DE) xe R” (5. 55) 


这 里 平滑 参数 有 是正 数 ， 称 为 带宽 ， 或 简单 称 为 宽 ; h 控制 着 核 的 大 小 。 Parzen-Rosenblatt 密 
度 估计 的 重要 性 质 是 其 为 一 致 估计 "〔 即 渐进 无 偏 )， 意 味 着 如 果 AACN) RUA RF NW 
函数 使 得 


(5.54) 





limh CN) = 0 
则 
lim EL px (x) ] = px (xX) 
为 了 保持 后 一 方程 ，z DRED, COMBE. 
与 式 (5. 55) 相 似 的 方式 ， 可 以 公式 化 联合 概率 密度 函数 px.y (x,y) 的 Parzen-Rosenblatt 密 
度 估计 : 





Pry y) = a DE) 4YxOR™ HYER (5. 56) 


关于 y 对 Pxy Ory) A, BRIG. 55) 的 px (Xx)。 
而 且 ， 
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E buy (x y)dy = I De x )| x (2 7 2) dy 
通过 设置 (7 一 %)/ 六 来 改变 积分 变量 并 运用 核 &(，) 的 性 质 2， 得 到 如 下 结果 : 
oo N — y. 
Fv Puy X y)dy = a et ( h =) (5.57) 


因此 ， 利 用 式 (5. 57) 和 式 (5. 55) 作 为 式 (5. 54) 相 应 的 分 子 和 分 母 的 量 的 估计 ， 得 到 如 下 在 消除 
共同 项 之 后 关于 回归 函数 f(x) 的 估计 : 











Sys(* x) 
F(x) = f(x) = +4 (5. 58) 
> %) 


这 里 ， 为 了 表达 清晰 ， 在 分 母 部 分 ， 用 7 代替 i 作为 和 的 索引 。 
有 两 个 观点 来 考察 式 (5. 587 的 和 逼近 函数 Fa): 
1. Nadaraya-Watson 回归 估计 。 第 一 个 观点 ， 和 定义 归 一 权 函 数 





xx 
Www Go = AE) i= 1,2,",N (5.59) 
Da) 
有 
Weald =1, 对 于 所 有 的 x (5. 60) 
然后 可 以 重 写 式 (5. 58) 的 核 回归 估计 ， 简 化 形式 为 ; 
F(x) = DW sD. (5. 61) 


它 将 FOO ARCA Ay IN, AG. SDA MIR W a, 站 形式 是 由 
Nadaraya(1964) 和 Watson(1964) 提出 的 ， 所 以 式 (5. 61) 所 示 的 逼近 函数 通常 称 为 Nadaraya- 
Watson 回归 估计 器 (NWRE)"，。 

2. 归 一 化 的 RBF 网 络 。 第 二 个 观点 ， 假 设 核 AX) 是 球 对 称 的 ， 这 样 我 们 就 可 以 令 


(5) (DL), 对 于 所 有 的 i (5. 62) 


这 里 外。 小 表示 包含 向 量 的 欧 几 里 得 范 数 (Krzyzak 等 ，1996) 。 相 应 地 ， 定 义 妇 一 化 径 向 基 
函数 为 : 


k( | x— x; Í ) 





by OE) = e h i i= 1,2, N (5. 63) 
X— X; 
we) 
D pax) = 1, 对 于 所 有 的 x (5. 64) 


dn (x, x) PRY Fp N 表示 使 用 归 一 化 (normalization)。 
对 于 第 二 个 观点 所 考虑 的 回归 问题 ， 我 们 可 以 看 出 应 用 于 基 函 数 yn (x,x;) 的 “线性 权 值 ” 
w;， 就 是 回归 模型 中 对 应 于 x; 的 观察 值 y;。 因 此 令 
yi = ws 1= 1,200N 
重新 将 式 (5. 58) 所 示 的 逼近 函数 写成 一 般 形 式 ， 
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F(x) = Dlg Ga (5. 65) 


式 (5. 65) 表 示 的 是 一 个 归 一 化 RBF 网 络 的 输入 - 输出 映射 (Moody and Darken, 1989; Xu 等 ， 
1994), TER: 
OS dvix) <1, MAAK x fx, (5. 66) ` 
因此 ，gyn (x,x;) 可 以 解释 为 以 x; 为 条 件 的 由 输入 向 量 x 描述 的 事件 的 概率 。 
式 (5.63) 的 归 一 化 径 向 基 画 数 yn (x,xi) 与 一 般 径 向 基 薄 数 的 不 同 之 处 在 于 yn (xx) A 
个 组 成 归 一 化 因子 的 分 母 。 归 一 化 因子 是 关于 输入 向 量 x 的 固有 概率 密度 函数 。 因 此 ， 对 所 有 
的 x 基 函数 yw(Cxyx) 的 ;一 1,2,……N 项 之 和 等 于 1， 即 式 (5. 64)。 


多 元 高 斯 分 布 
一 般 说 来 可 以 选择 各 种 各 样 的 核 函 数 。 但 是 ， 理 论 和 实际 的 考虑 限制 了 我 们 的 选择 。 一 个 
广泛 使 用 的 核 函数 是 多 元 高 斯 分 布 


2 
k(x) = exp(— tet) (5. 67) 


1 
(2x)? 
HH, m 是 输入 向 量 x PAR. BME. RO. 67) 所 示 的 核 k(x) 具 有 球 对 称 性 。 假 设 使 用 相 
同 的 带宽 c，c 与 平滑 参数 及 对 每 一 个 高 斯 分 布 的 作用 相同 ， 且 以 数据 点 x FARRAH PD, 
可 写成 





xX— xXx) _ 1 Ix—x Hy. .. 
k( 7 ) gta ex ( 元 ) = 1,2, N (5. 68) 
因此 ， 使 用 式 (5. 68), Nadaraya-Watson 回归 估计 可 以 写成 
— x, l]? 
Pyerp(— SEE) 


| x—x; l’ 
dew (— a) 
其 中 分 母 项 表示 Parzen-Rosenblatt 密度 估计 器 ， 由 NN 个 以 数据 点 xoxo ,xn 为 中 心 的 多 元 


高 斯 分 布 之 和 构成 (Specht, 1991). 
相应 地 ， 将 式 (5.68) 代 入 式 (5. 63) 和 式 (5. 65) ， 可 以 得 到 归 一 化 RBF 网 络 的 输入 -输出 映 


射 函 数 的 如 下 形式 ，: 


(5. 69) 





Dexp(— ls I}? ) 


Sexo (- St | ) 


在 式 (5. 69) 和 式 (5.70) 中 ， be Ce D 与 输入 数据 点 (x) SR 
径 向 基 函 数 相 同 ， 可 以 使 用 较 小 数量 的 归 一 化 径 向 基 枯 数 ， 它 们 的 中 心 被 看 作 可 以 根据 某 种 局 
发 式 方法 选择 的 自由 参数 (Moody and Darken，1989)， 或 者 按 第 7 章 讨 论 的 原则 方式 来 确定 。 


5. 11 小结 和 讨论 


在 本 章 中 ， 我 们 集中 讨论 作为 多 层 感知 器 替代 的 径 向 基 画 数 (RBF) 网 络 。 和 第 4 章 讨论 
的 多 层 感知 器 相似 ，RBF 网 络 就 其 本 身 来 说 是 一 个 通用 远近 器 (Sandberg and Xu, 1997a, 
1997b)。 它 们 基本 结构 上 的 不 同 可 总 结 如 下 : 

在 多 层 感 知 器 中 ， 胃 数 晕 近 是 通过 加 权 和 的 迹 套 集 来 定义 的 ， 而 RBF 网 络 中 通 近 是 由 单 
一 加 权 和 定义 的 。 


F(x) 一 (5. 70) 
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设计 考虑 

RBF 网 络 的 设计 遵循 插值 理论 ， 这 从 数学 上 讲 是 精致 的 。 然 而 ， 从 实际 的 观点 ， 该 设计 
方法 有 两 个 缺点 。 第 一 ， 训 练 样本 可 能 是 含 噪声 的 ， 通 过 RBF 网 络 可 能 产生 误 人 歧途 的 结果 。 
第 二 ， 当 训练 样本 的 大 小 很 大 时 ，RBF 网 络 的 隐藏 层 采用 和 训练 样本 相同 大 小 的 话 ， 将 会 浪 
费 计 算 资 源 。 

设计 RBF 网 络 的 更 实际 的 方法 是 遵循 5. 5 节 到 5.7 节 描 述 的 混合 学 习 过 程 。 基 本 上 ， 这 
一 过 程 按 如 下 两 阶段 操作 : 

。 第 一 阶段 应 用 天 -均值 聚 类 算法 按 非 监 督 方式 来 训练 隐藏 层 。 典 型 地 ， 聚 类 个 数 ， 也 就 

是 隐藏 层 的 计算 单元 个 数 ， 明 显 小 于 训练 样本 的 大 小 。 

。 第 二 阶段 应 用 递归 最 小 二 乘法 来 计算 线性 输出 层 的 权 值 向 量 。 

这 两 阶段 设计 过 程 具有 两 个 期 望 的 特征 ， 计算 简单 性 和 加 速 收敛 性 。 
试验 结果 

5. 8 节 在 双 月 “玩具 ”问题 上 的 计算 机 试验 结果 揭示 了 混合 “K- 均 值 ，RLS” 分 类 器 能 够 
达到 令 人 印象 深刻 的 性 能 。 将 试验 的 结果 和 下 一 章 将 要 讨论 的 支持 向 量 机 SVM) 的 同样 试 
验 做 比较 的 时 候 ， 我 们 发 现 这 两 个 分 类 器 执行 得 非常 相似 。 然 而 , “天 - 均 值 ，RLS” 分 类 器 比 
SVM 收敛 速度 更 快 ， 需 要 更 少 的 计算 。 

值得 注意 的 是 Rifkin (2002) 在 他 的 博士 论文 中 ， 很 细致 地 比较 了 RLS 和 SVM 对 于 线性 
可 分 模式 的 分 类 ， 使 用 了 玩具 样本 的 选集 。 下 面 是 他 实验 结果 的 小 结 ; 

。 RLS 和 SVM 分 类 器 表现 出 近乎 相同 的 性 能 。 

。 它们 都 对 训练 样本 中 异常 的 出 现 敏感 。 

Rifkin(2002) 也 完成 了 图 像 分 类 的 试验 ， 使 用 了 两 个 不 同 的 数据 集合 : 

。 U.S. 邮政 服务 (USPS) 手写 字数 据 集 ， 包 括 7291 个 训练 样本 和 2007 个 测试 样本 。 
训练 集 包 含 6639 个 负 样 本 和 652 个 正 样本 ， 而 测试 集 包 含 1807 个 负 样 本 和 200 个 正 
样本 。 

。 MIT 识别 集 ， 被 称 为 faces。 训 练 集 包含 2429 个 人 脸 和 4548 个 非 人 脸 ， 测 试 集 包 会 
572 个 人 脸 和 23 573 个 非 人 脸 。 

对 于 USPS 数据 集 ， 报 告 指出 非 线 性 RLS 分 类 器 和 SVM 相 比 在 接收 机 工作 特性 (ROC) 
曲线 的 全 部 范围 上 完成 得 一 样 好 或 者 更 好 。ROC 曲线 画 出 了 当 使 用 单一 网 络 输出 时 在 变化 的 
决策 阔 值 上 真实 位 置 率 (true-positive rate) 和 错误 位 置 率 (false-positive rate) 的 图 ; 术语 
“ 率 ” 是 衡量 分 类 概率 的 另 一 个 途径 。 在 faces 上 完成 的 测试 产生 了 混合 结果 : 对 于 一 个 设计 参 
数 集合 ，SVM 本 质 上 比 非 线性 RLS 分 类 器 完成 得 好 。 对 于 另 一 个 设计 参数 集合 ， 性 能 相近 。 
我 们 要 指出 的 是 Rifkin(2002) 中 设计 非 线性 RLS 分 类 器 的 隐藏 层 的 策略 和 本 章 中 考虑 的 五- 均 
值 聚 类 算法 有 很 大 不 同 。 

一 个 重要 的 信息 是 ， 对 于 本 书 中 的 双 月 “ 玩 具 ” 实 验 以 及 Rifkin(2002) 报告 的 更 多 方面 
的 试验 来 说 ， 包 含 两 个 方面 : 

1. RLS 算法 在 信和 号 处 理 和 控制 理论 的 文献 中 进行 了 彻底 研究 (Haykin，2002; Goodwin 
and Sin，1984) 。 遗 憾 的 是 ， 在 机 器 学 习 的 文献 中 ， 除 了 Rifkin(2002) 的 博士 论文 以 及 少 重 其 
他 文献 之 外 基本 上 被 完全 忽视 了 。 

2. 需要 利用 实践 数据 集 来 进行 更 广泛 的 实验 ， 以 便 对 于 基于 RLS 算法 《用 于 设计 其 输出 
E) 的 RBF 网 络 和 SVM 之 间 的 相互 比较 作出 更 精确 的 结论 ， 不 仅仅 从 性 能 的 角度 ， 也 从 收敛 
速率 和 计算 复杂 度 的 角度 。 
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核 回 归 

本 章 研究 的 另 一 个 重要 的 课题 是 核 回 归 ， 这 建立 在 密度 估计 的 概念 之 上 。 特 别 地 ， 我 们 集 
中 讨论 了 被 熟知 为 Parzen-Rosenblatt 密度 估计 器 的 非 参 数 估计 器 ， 其 形成 依赖 于 核 的 可 利用 
性 。 这 一 研究 让 我 们 通过 两 种 观点 来 考察 定义 为 非 线 性 回归 模型 的 通 近 函数 : Nadaraya-Wat- 
son 回归 估计 器 和 归 一 化 RBF 网 络 。 对 于 这 两 者 ， 多 变量 高 斯 分 布 提供 了 对 于 核 的 一 种 好 的 
选择 。 
注释 和 参考 文献 


1. 径 向 基 范 数 是 在 解决 实 多 变量 插值 问题 时 首次 提出 的 。 这 方面 的 早期 工作 在 Powell(1985) 中 有 所 论述 。 现 
在 径 向 基 函 数 是 数值 分 析 研 究 中 的 一 个 主要 方向 。 
Broomhead and Lowe(1988) 首先 将 径 向 基 薄 数 应 用 于 神经 网 络 设计 。Poggio and Girosi(1990a) 在 径 向 基 
函数 网 络 的 理论 与 设计 中 也 做 出 了 重大 资 献 。 后 一 篇 论文 强调 将 正则 化 理论 应 用 于 这 类 神经 网 络 ， 以 提高 
对 新 数据 的 泛 化 能 力 ; 正则 化 理论 将 在 第 10 章 详 细 讨 论 。 

2. Cover 定理 的 证 明 遵 循 如 下 两 个 基本 考虑 (Cover, 1965); 
。 Schlafli 定理 ， 或 函数 计数 定理 : 对 mi 维 欧 几 里 得 空间 上 的 N 个 处 于 一 般 位 置 的 向 量 进行 二 分 ， 可 得 

到 的 齐 次 线性 可 分 的 二 分 方式 的 数目 等 于 : 


CON,m) = 25) ( 
如 果 每 一 个 含有 m 个 或 小 于 m 个 的 向 量子 集 都 是 线性 独立 的 ， 就 说 mm 维 欧 几 里 得 空间 上 的 集合 光一 
{x 处 于 一 般 位置 。 
。 号 的 联合 概率 分 布 的 反射 不 变性 : 一 个 随机 二 分 是 可 分 的 概率 “在 % 的 条 件 下 〉 等 于 % 的 一 个 特定 二 分 
(所 有 的 N 个 向 量 都 属于 一 类 〉 的 非 条 件 概率 。 
Cameron(1960) Joseph(1960) 和 Winder(1961) 以 不 同 的 形式 独立 证 明了 函数 计数 定理 ， 并 应 用 于 特定 
的 感知 器 配置 〈 即 线性 阔 值 单元 ) 。 在 Cover(1968) 中 这 个 定理 还 被 用 于 根据 所 有 可 调 参 数 的 总 数 估计 感 
知 器 网 络 的 能 力 ， 它 的 下 界 是 N/(1 十 logs/N)， 其 中 N 是 输入 模式 的 数量 。 
3. 通常 聚 类 在 多 本 书 中 都 有 讨论 ,包括 Theodoridis and Koutroumbas(2003), Duda 等 (2001) 和 Fukunaga 
(1990), 
K- 均 值 算法 是 从 MacQueen(1967) 之 后 采取 了 这 个 和 名字， 他 在 统计 聚 类 过 程 中 研究 了 天- 均值 算法 ， 包 括 
算法 的 收敛 性 。 这 一 思想 在 Foregey(1962) 中 在 讨论 聚 类 时 进行 了 描述 。 
Ding and He(2004) 介绍 了 在 聚 类 的 及 -均值 算法 和 数据 前 减 的 主 分 量 分 析 之 间 一 个 非常 有 趣 的 关系 。 特 别 
证 明了 主 分 量 表达 了 K- 均 值 聚 类 中 到 类 成 员 指 标的 连续 的 随意 的 ) 解 。 在 某 种 方式 下 ， 这 两 种 观点 是 一 
致 的 ， 即 数据 的 聚 类 也 是 某 种 形式 的 数据 削减 ， 当 然 这 两 者 都 是 在 非 监督 方式 下 完成 的 。 主 分 量 分 析 将 在 
第 8 章 介绍 。 
在 通信 文献 中 处 理 矢 量 量 化 时 ， 称 K- 均 值 算 法 为 广义 Lloyd 算法 ， 这 是 Bell 试验 室 1957 年 一 篇 未 发 表 的 
报告 中 出 现 的 Lloyd 原始 算法 的 广义 化 版 本 。 后 来 ， 在 1982 年 ，Lloyd 的 报告 被 正式 出 版 。 
4. Fisher 线性 判别 ” 式 (5.26) 定 义 的 代价 函数 不 是 别 的 正 蚌 称 为 类 内 协 方差 (分 散 ) BY (Theodoridis 
and Koutroumbas, 2003), 
要 理解 这 句 话 的 意思 ， 考 虑 由 如 下 的 内 积 定义 的 变量 y: 
yews (A) 
向 量 x 是 从 两 个 族群 外 ME 中 的 其 一 取出 的 ， 这 两 个 族群 通过 均值 ht 和 ps 将 彼此 区 别 开 来 ，w 是 可 调整 
参数 。 这 两 类 之 间 Fisher 判别 准则 由 下 式 定义 : 


Nv) 


m 





_w Cw 
Jw = ee (B) 
其 中 C 是 类 间 协 方差 矩阵 ， 定 义 为 
C 一 (pz — wh) (ae 一 ka) (O) 


C, 是 总 类 内 协 方差 矩阵 ， 定 义 为 


第 5 章 核 方法 和 径 向 基 函 数 网 络 . 165 





C= Sap, p+ 3) 0% po) Cx — pa? (D) 
a 


ne 2 
类 内 协 方差 矩阵 C, Ete FURAN RAD EEE. CAMPER E E A RURE W KRD E 
大 它 通 常 是 非 奇 异 的 。 类 间 协 方差 矩阵 Cs 也 是 对 称 非 负 定 的 但 奇异 。 一 个 特别 感 兴趣 的 性 质 是 矩阵 乘积 
Cw 总 是 差分 均值 向 量 pw 一 pz 的 方向 。 这 一 性 质 直 接 由 C 的 定义 得 到 。 
定义 I WW RIKER BAA AS SL Rayleigh 商 。 最 大 化 J(w) 的 w 必须 满足 i 条件 

Cw = ACw CE) 
其 中 是 尺度 因子 。 方 程 ŒE E-D CAME, ARA, ERMA, EERE Cw 总 是 差 
分 均值 向 量 一 pz 的 方向 ， 我 们 发 现 式 E 的 解 为 
w= Ch (me) (F) 
这 称 为 Fisher 线性 判别 (Duda 等 ，2001) 。 
考虑 到 式 〈D) 中 类 内 协 方差 矩阵 C, 的 迹 ， 我们 确实 发 现 式 (5.26) 的 代价 函数 是 这 一 协 方差 矩阵 的 迹 ， 耕 
如 我 们 已 经 说 明 的 那样 。 

5. 从 哲学 的 角度 讲 ，K- 均 值 算法 的 两 步 最 优化 过 程 相似 于 EM 算法 的 两 步 最 优化 ， 这 里 第 一 步 是 期 望 的 某 一 
种 ， 记 为 “E”， 第 二 步 是 最 大 化 的 某 一 种 ， 记 为 “M”。EM 算法 是 从 最 大 似 然 计算 的 基础 上 发 展 起 来 的 ; 
将 在 第 11 章 中 讲述 。 

6. 在 文献 中 ， 缩 写字 母 “RLS” 被 用 于 简称 第 2 章 中 讨论 过 的 正则 最 小 二 乘法 和 本 章 中 讨论 过 的 递归 最 小 二 
乘法 。 在 相关 讨论 中 ， 我 们 通常 能 够 分 辩 这 个 缩写 字 指 的 两 个 算法 中 的 哪 一 个 。 

7. 对 于 在 5. 6 节 中 总 结 的 RLS 算 法 的 革 本 内 容 的 经 典 内 容 ， 在 Diniz(2002) 和 Haykin(2002) 的 书 中 有 讲述 。 

8. RBF 网 络 的 混合 学 习 过 程 已 经 在 多 个 不 同 的 文献 中 讲述 过 ， 对 于 这 两 个 阶段 利用 不 同 的 算法 ; 参看 Moody 
and Darken(1989) 和 Lippman(1989b)。 

9. 式 (5.52) 的 条 件 均值 估计 器 也 是 最 小 均 方 估计 器 ;这 一 说 法 的 证 明 在 第 14 章 的 注释 7 中 在 贝 叶 斯 估计 理论 
下 给 出 。 

10. 关于 Parzen-Rosenblatt 密度 估计 器 的 渐 近 无 偏 性 的 证 明 ， 参 看 Parzen(1962) 和 Cacoullos(1966) 。 

11. Nadaraya-Watson 回归 估计 器 在 统计 学 文献 中 已 是 一 个 广泛 研究 的 主题 。 从 更 广 的 意义 上 说 ， 非 参数 泛 函 
佑 计 在 统计 学 中 点 有 中 心地 位 ;参看 Hardle(1990) 和 Roussas(1991) 的 论文 集 。 


习题 

Cover 定理 

5.1 如 5.2 节 所 建议 的 ， 学 习 式 (5.5) 的 最 好 方式 是 通过 设 N-am 来 归 一 化 。 利 用 这 一 归 一 化 ,对 N=1， 
5，15 和 25， 绘 出 PCAm，mi) 对 于 4 的 图 形 ， 从 而 验证 这 一 节 中 讲述 的 式 (5.5) 的 两 个 特性 。 

5.2 确认 在 5. 2 节 开 始 时 指出 的 Cover 定理 的 优 缺 点 。 


5.3 在 图 5. 1b 中 给 出 的 例子 画 出 了 一 个 球形 可 分 的 二 分 。 假 设 分 离 曲 面 之 外 的 四 个 点 位 于 一 个 圆 上 ， 而 在 
分 离 曲面 内 部 仅 有 的 一 个 数据 点 位 于 分 离 曲面 的 中 心 。 调 查 这 些 数据 点 样本 是 如 何 非 线性 变化 的 ， 使 用 


(a) 多 二 次 函数 
glr) = fe? +1)” 
(b) 道 多 二 次 函数 
M 1 
pD = Gy pm 
K-34 R Žž 


5.4 考虑 下 面 对 于 定义 在 式 (5. 26) 的 代价 函数 的 修正 : 


K N 
J@ = >) Wij (| x — py; Il? 
j=1 i=l 
在 这 一 函数 中 ， 权 因子 zw 定义 如 下 : 
1 如果 数 据 位 于 聚 类 7 
> jo eH 








证 明代 价 范 数 的 最 小 解 是 ， @ = 3 ， j=1,2,,K 
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如 何 解释 这 个 公式 中 分 子 和 分 母 的 表达 式 呢 ? 对 比 两 个 答案 的 结论 和 我 们 在 聚 类 的 部 分 已 经 学 习 过 的 
结论 。 
递归 最 小 二 来 算法 
5.5 在 这 一 习题 中 ， 我 们 采用 矩阵 P 的 统计 解释 ，P 定义 为 相关 和 矩阵 RMR, 
(a) 利用 线性 回归 模型 
=w Q He, i 一 1 ,2…，, 
证 明 w 的 最 小 二 乘 最 优 估计 可 表示 为 
W=wt(O'@) Oe 
其 中 
中 7 
o= - 
中 8 
和 
e= [er 9€2 9°" yen]? 
假设 误差 s 是 方差 为 o? 的 白 噪 过 程 的 样本 。 
(b) 从 而 ， 证 明 协 方差 矩阵 





EL(w— iw A)T] = PR [= oP 
其 中 
N 
R- Soe! 


i=l 


5.6 从 如 下 的 正则 代价 函数 开始 : 
1 


N 
Gl) = Fa —w" oO)? + Fa wl? 
， i=l 


进行 如 下 工作 : 
(a) TEBE TES lw Il? 的 附加 无 论 如 何 对 于 RLS 算 法 的 构成 没有 影响 ， 如 5. 6 节 所 总 结 的 那样 。 
(b) 引入 正则 项 的 仅 有 的 效果 是 将 输入 数据 的 相关 矩阵 表达 式 修 改 为 如 下 形式 ， 

R(n) 一 x bi) p Gi) 十 MI 


其 中 1 是 单位 矩阵 。 证 明 这 一 相关 矩阵 R(z) 的 新 的 表达 式 ， 并 证 明 通过 引入 正则 化 所 获得 的 实际 
效益 。 
5.7 自 适 应 滤波 的 最 小 均 方 (LMS) 算法 已 经 在 第 3 章 讨论 了 。 比 较 递 归 最 小 二 蔷 (RLS 算法 和 LMS E 
法 的 优 缺 点 。 
RBF 网 络 的 监督 训练 
5.8 基于 高 斯 的 RBF 网 络 的 输入 -输出 关系 定义 如 下 : 


K 
+ __l >a 2 ;— aes 
yli) = Dw expl PIES | xG) — p; Ca) || ) ， T= 1 27 


其 中 必 (m) 是 第 7 了 个 高 斯 单元 的 中 心 点 ， 宽 oC MT ATI KK 个 单元 是 共同 的 ，w; (n) 是 分 配给 第 j 个 输 
出 单元 的 线性 权 值 ， 所 有 这 些 参 数 都 在 时 间 ”处 测量 。 用 于 训练 网 络 的 代价 函数 定义 为 ， 
Lay: 
= Lue Gi) 
其 中 
eG) = di) — yi) 
AR Bt BCC RE AH E RE EL AY oh eR, EE Ac Po AE. 


(a) 计算 代价 函数 对 每 一 个 网 络 参 数 wj (0). ay (n) 和 oln) 对 所 有 i 的 偏 导 数 。 
Cb) 利用 (a) 所 获得 的 梯度 来 对 所 有 的 网 络 参数 表达 更 新 公式 ， 对 网 络 的 可 调整 参数 相应 地 假设 为 ph， 


Mu Vo o 
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Cc) 梯度 向 量 3 名 /jy; (nw) 对 于 输入 数据 有 一 个 类 似 于 聚 类 的 效果 ， 证 明 这 一 说 法 。 

核 估计 

5.9 ”假设 给 你 “无 噪声 ”的 训练 样本 (f(zx;)) 芒 ,， 要 求 设计 一 个 神经 网 络 对 被 噪声 破坏 的 数据 样本 (因而 不 
包含 在 训练 集中 ) 泛 化 。 令 F(X) 标 记 为 被 这 样 的 神经 网 络 实现 的 吏 近 函数 ， 这 一 函数 被 选择 为 使 得 期 
望 平方 误差 


N 
ID = 5 fm LD — FDT feds 
i=l R’ 


最 小 ， 其 中 Fe) SRA AS FT Ro 中 噪声 分 布 的 概率 密度 函数 。 证 明 这 个 最 小 二 乘 问题 的 解 由 下 式 给 出 
(Webb, 1994): 


N 
YIDA x) 
F(x) = = 





比较 这 个 估计 器 和 Nadaraya-Watson 估计 器 。 
计算 机 实验 
5.10 ”这 个 计算 机 实验 的 目的 是 调查 由 区 -均值 算法 完成 的 聚 类 过 程 。 为 了 对 该 实验 提供 深入 洞察 ， 我 们 将 聚 
类 个 数 固 定 为 K 二 6， 但 变化 图 1. 8 所 示 的 两 月 之 间 的 垂直 分 隔 距 离 。 具 体 来 说 ， 要 求 利 用 从 图 1.8 的 
双 月 中 两 个 区 域 随机 取得 的 1 000 个 数据 点 作为 无 标志 训练 样本 进行 如 下 工作 : 
(a) 对 于 8 个 一 致 隔 开 的 垂直 分 隔 序 列 通过 实验 决定 均值 记 MOR oj = 1,2,…,6 ， 从 d 二 1 开始 每 
次 减少 1 直到 达到 最 后 的 分 隔 距 离 d= 一 6。 
(b) 根据 (a》 所 获得 的 结果 ， 对 于 聚 类 j 的 均值 名 是 如 何 被 减 小 的 分 隔 距 离 d 所 影响 的 作 一 个 评论 ， 
了 一 1,2,3 。 
(ec) 对 了 = 1,2，…6 MHA] ADRES 4 的 关系 图 。 
Cd) 将 实验 公式 (5.49) 计 算出 的 oo 和 Co) 中 的 图 显示 的 趋势 做 比较 。 
5.11 第 二 个 实验 的 目的 是 比较 两 个 混合 学 习 算 法 的 分 类 性 能 : 在 第 5. 8 节 调 查 过 的 “K- 均 值 ，RLS” 算 法 
和 这 一 习题 中 调查 的 “KK- 均 值 ，LMS” 算 法 。 
如 第 5. 8 节 所 述 ， 假设 如 下 的 规格 : 
让 藏 高 斯 单元 数 : 20 
训练 样本 数 : 1 000 个 数据 点 
测试 样本 数 : 2 000 个 数据 点 
令 LMS 算法 的 学 习 率 参数 从 0. 6 线性 地 退火 到 0.01, 
(a) 对 于 图 1. 8 的 两 个 月 之 间 的 垂直 分 隔 设 为 4 一 一 5 时 ， 用 “KK- 均 值 ，LMS” 算 法 构造 决策 边界 。 
(b) 4d=—6 时 重复 这 一 实验 。 
O ERA “K-54, LMS” AAA 5. 8 节 学 习 过 的 “K- 均 值 ，RLS” 算 法 获得 的 分 类 结果 。 
(D 比较 一 般 性 的 “KK- 均 值 ，LMS” 算 法 和 “K- 均 值 ，RLS” 算 法 之 间 的 复杂 性 。 
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本 章 组 织 

本 章 学 习 支 持 向 量 机 ， 此 算法 也 许 是 所 有 使 用 核 学 习 方 法 中 最 好 的 机 器 学 习 算 法 。 首 先是 
6.1 节 的 引言 ， 接 下 来 的 内 容 组 织 如 下 : 

6.2 节 主 要 讨论 在 模式 线性 可 分 的 情况 下 如 何 构造 一 个 优化 的 超 平 面 ， 在 6.3 节 ， 考 虑 更 
加 复杂 情况 下 的 模式 分 类 ， 即 线性 不 可 分 的 情况 下 如 何 构造 一 个 优化 的 超 平面 。 

6.4 节 中 将 引入 内 积 核 的 思想 ， 由 此 建立 将 支持 向 量 机 作为 一 种 核 方 法 的 学 习 算 法 框架 ， 
同时 ， 我 们 还 引入 广泛 使 用 的 思想 一 一 核 技巧 。6.5 节 总 结 支持 向 量 机 设计 的 主要 思想 ，6. 6 
节 重 新 考虑 XOR 问题 。6.7 节 将 对 一 个 具体 的 模式 分 类 问题 进行 计算 机 实验 。 

6.8 节 中 引入 se- 不 敏感 损失 函数 ， 从 而 用 于 解决 6.9 节 出 现 的 回归 问题 。 

6. 10 节 主 要 介绍 表达 定理 ， 它 使 人 洞悉 在 Mercer 核 的 环境 下 近似 函数 的 生成 。 

最 后 ，6. 11 节 对 本 章 进 行 总 结 和 讨论 。 


6.1 引言 


在 第 4 章 ， 我 们 学 习 了 由 反 向 传播 算法 训练 的 多 层 感知 器 ， 该 算法 好 的 特点 是 其 简单 性 ， 
但 是 算法 收敛 速度 慢 且 缺少 最 优化 性 。 在 第 5 章 ， 我们 研究 了 另 一 类 前 馈 网 络 ， 即 径 向 基 薄 数 
网 络 ， 其 主要 思想 来 自 于 插值 理论 ， 然 后 描述 了 次 最 优 的 两 阶段 设计 过 程 。 在 这 一 章 ， 我 们 将 
讨论 另 一 种 通用 的 前 馈 网 络 的 类 型 ， 称 为 支持 向 量 机 (support vector machines，SVMs) 。 

从 本 质 上 来 说 ， 支 持 向 量 机 是 具有 很 多 优秀 性 能 的 两 类 机 器 学 习 方 法 。 要 解释 它 是 如 何 工 
作 的 ， 从 模式 分 类 中 可 分 离 模式 的 情况 开始 可 能 是 最 容易 的 。 在 此 背景 下 ， 支 持 向 量 机 的 主要 
思想 可 以 总 结 如 下 : 

给 定 训 练 样本 ， 支 持 向 量 机 建立 一 个 超 平面 作为 决策 曲面 ， 使 得 正 例 和 反例 之 间 的 隔离 边 
缘 被 最 大 化 。 


在 处 理 更 加 复杂 的 线性 不 可 分 的 模式 时 ， 我 们 原则 性 地 对 算法 的 基本 思想 进行 扩展 。 

在 支持 向 量 x 和 从 输入 空间 提取 的 向 量 x 之 间 的 内 积 核 这 一 概念 是 构造 支持 向 量 机 学 习 
算法 的 关键 。 最 重要 的 是 ， 支 持 向 量 是 由 算法 从 训练 数据 中 抽取 的 小 的 子 集 构成 。 事 实 上 ， 支 
持 向 量 机 被 称 为 核 方法 是 由 于 其 构造 过 程 中 这 一 关键 的 性 质 。 但 是 不 同 于 第 5 章 中 描述 的 次 优 
化 核 方法 ， 对 于 支持 向 量 机 的 设计 来 说 核 方法 本 质 上 是 最 优 的 ， 而 最 优 性 是 根植 于 凸 最 优 。 但 
是 支持 向 量 机 这 些 令 人 满意 的 特点 是 通过 增加 计算 复杂 度 得 到 的 。 

与 第 4 章 和 第 5 章 讨 论 的 过 程 一 样 ， 支 持 向 量 机 可 以 用 来 解 模式 识别 和 非 线性 回归 问题 ， 
但 是 对 于 解 复杂 的 模式 分 类 问题 而 言 支持 向 量 机 具有 尤为 重要 的 影响 。 


6.2 线性 可 分 模式 的 最 优 超 平 面 


考虑 训练 样本 {Czi,d;))X,， 其 中 x; 是 输入 模式 的 第 i 个 样 例 ，d; 是 对 应 的 期 望 响应 《上 
标 输出 )。 首 先 假设 由 子 集 4 二 十 1 代表 的 模式 (类) A d=- 代表 的 模式 是 “线性 可 分 
的 ”。 用 于 分 离 的 超 平面 形式 的 决策 曲面 方程 是 : 
wIX 十 0 一 0 (6.1) 
其 中 x 是 输入 向 量 ，w 是 可 调 的 权 值 向 量 , 5 是 偏 置 。 因 此 可 以 写成 : 
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wx +650 X di = 十 1 

wx 十 <0 当 di 
在 这 里 做 了 模式 线性 可 分 的 假设 ， ee cee 后 的 基本 思想 ; 
在 第 6. 3 节 将 放宽 这 个 假设 。 

对 于 一 个 给 定 的 权 值 向 量 w 和 偏 置 2， 由 式 (6. 1) 定 义 的 超 平面 和 最 近 的 数据 点 之 间 的 间 
隔 被 称 为 分 离 边 缘 ， 用 po 表示。 支持 向 量 机 的 目标 是 找到 一 个 特殊 的 超 平面 ， 这 个 超 平面 的 分 
离 边缘 o 最 大 。 在 这 种 条 件 下 ， 决 策 曲 面 称 为 最 优 超 平 面 (optimal hyperplane), Al 6. 1 描述 
二 维 输入 空间 中 最 优 超 平面 的 几何 结构 。 

Kw, AO, 分 别 表示 权 值 向 量 和 偏 置 的 最 优 值 。 相 应 地 ， 在 输入 空间 里 表示 多 维 线性 决策 
面 的 最 优 超 平面 形式 如 下 : 


(6. 2) 


wix 十 b。 二 0 (6. 3) 
它 是 式 (6. 1) 的 改写 。 判 别 函 数 
g(x) = wix+4, (6. 4) 
给 出 从 x 到 最 优 超 平面 的 距离 的 一 种 代数 度量 (Duda and Hart，1973) 。 看 出 这 一 点 的 最 简单 
方法 或 许 是 将 x 表达 为 


Wo 
* ETT 


EF, xy 是 x 在 最 优 超 平面 上 的 正 轴 投影 ，r 是 期 望 的 代数 距离 ， 如 果 x 在 最 优 超 平面 的 正面 ,7 
REA; 相反 如 果 x 在 最 优 超 平面 的 负面 ,，r 是 负 值 。 因 为 由 定义 知 g(x,) 二 0， 由 此 推出 : 

g(x) = wix+d, =r || w. Íl 
或 者 等 价 于 : 


= g% i (6.5) 
il w. I 


TH, MBAR Gl x=0) 到 最 优 超 平面 的 距离 由 b/w lA. WRO>O, 原点 在 最 优 
超 平面 的 正面 ; 如 果 5b, 二 0， 原 点 在 负面 ; 如 果 5b, 二 0， 最 优 超 平面 通过 原点 。 这 些 代数 的 几何 
解释 在 图 6.2 中 给 出 。 











最 优 超 平面 








0 Xl 








图 6.1 线性 可 分 模式 最 优 超 平 面 的 思想 示意 图 ; 图 6.2 二 维 情况 下 点 到 最 优 超 平面 
灰色 阴影 表示 的 点 是 支持 向 量 的 代数 焉 离 的 几何 解释 
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现在 的 问题 是 对 于 给 定 的 数据 集 = ((xi,d;)} ， 找 到 最 优 超 平面 的 参数 w 和 5,。。 根 据 图 
6. 2 描绘 的 结果 ， 可 以 看 出 一 对 (w,b。) 一 定 满足 条 件 : 
wx tb 之 1  # d = 十 1 
wx: tb <—1 当 d;=—1 
注意 如 果 式 (6. 2) 成 立 ， 即 模式 是 线性 可 分 的 ， 总 可 以 重新 调整 w AD, 的 值 使 得 式 (6. 6) 成 
立 ; 这 种 重新 调整 并 不 改变 式 (6. 3)。 
满足 式 (6. 6) 第 一 行 或 第 二 行 等 号 情况 的 特殊 数据 点 (x; ,di) 称 为 支持 向 量 , “支持 向 量 机 ” 
因此 得 名 。 其 他 的 训练 样本 点 完全 不 重要 。 由 于 支持 向 量 的 特点 ， 这 些 向 量 在 这 类 机 器 学 习 的 
运行 中 起 着 主导 作用 。 用 概念 性 的 术语 来 说 ， 支 持 向 量 是 最 靠近 决策 面 的 数据 点 ， 这 样 的 数据 
点 是 最 难 分 类 的 。 因 此 ， 它 们 和 决策 面 的 最 优 位 置 直接 相关 。 
考虑 一 个 支持 向 量 x? 对 应 于 d” 二 十 1。 然 后 根据 定义 ， 得 出 : 


(6. 6) 








Bx?) 一 wix® +b, =Fl, Had? =F1 (6. 7) 
MEG. 5) 知 从 支持 向 量 x® SR OE RE S E 
Go) | iw Fe 5t 
r= F „T= ] (6. 8) 
° —- — > 当 d? =—1 
Il we Il 


其 中 加 号 表示 x" 在 最 优 超 平面 的 正面 ， 而 减 号 表示 xc 在 最 优 超 平面 的 负面 。 让 p 表示 在 两 个 
类 之 间 的 分 离 边缘 的 最 优 值 ， 其 中 这 两 个 类 构成 训练 集合 。 因 此 从 式 (6. 8) 得 到 


p= 2r = (6. 9) 





| wa | 
sb C6. 9) TAA: 

最 大 化 两 个 类 之 间 的 分 离 边 缘 等 价 于 最 小 化 权 值 向 量 也 的 欧 几 里 得 范 数 。 

总 之 ， 由 式 (6. 3) 定 义 的 最 优 超 平面 是 唯一 的 ， 意 味 着 最 优 权 值 向 量 w. 提供 正 反例 之 间 最 
大 可 能 的 分 离 。 这 个 优化 条 件 是 通过 最 小 化 权 值 向 量 w 的 欧 几 里 得 范 数 获得 的 。 
寻找 最 优 超 平面 的 二 次 最 优化 

支持 向 量 机 灵活 地 根植 于 凸 优化 理论 :一 因此 机 器 具有 良好 的 最 优化 性 。 基 本 上 分 以 下 四 
个 步骤 来 进行 : 

1. 寻找 最 优 超 平面 的 问题 ， 以 这 样 一 个 陈述 为 开始 : 即 在 原始 权重 空间 的 带 约 束 的 优化 
问题 。 

2. 对 于 上 述 约束 问题 建立 拉 格 朗 日 函数 。 

3. 推导 出 机 器 最 优化 条 件 。 

4. 问题 的 最 后 阶段 是 在 对 偶 空 间 解决 带 拉 格 朗 日 乘 子 的 优化 问题 。 

要 继续 讲解 ， 我 们 首先 注意 到 训练 样本 


T = {xi,di) 
ERAR 6) 的 两 行 的 。 把 两 个 等 式 合并 到 一 个 等 式 是 有 益 的 : 
di (wx, +6) Sl 当 i= 1,2,°°3N (6. 10) 


手 担 这 样 的 约束 形式 ， 现 在 我 们 准备 将 约束 最 优 问题 正式 地 陈述 如 下 : 
给 定 训练 样本 Cad), RABAT w 和 偏 置 b 的 最 优 值 使 得 它们 满足 下 面 的 约束 


条 件 : a 
d;(w'x; +b) > 1 4 i= 1,2,°,N 
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HEDA t E w 最 小 化 代价 函数 


ow) = ww 


这 里 包含 比例 因子 1/2 是 为 了 讲解 方便 。 这 个 约束 优化 问题 称 为 原 问题 (primal problem), € 
的 基本 特点 如 下 : 

。 代价 函数 BC(w) 是 w 的 凸 函 数 。 

。 约束 条 件 关 于 w 是 线性 的 。 
相应 地 ， 可 以 使 用 拉 格 朗 日 乘 子 方法 解决 约束 最 优 问题 CBertsekas, 1995), 

首先 ， 建 立 拉 格 朗 日 函数 


J(w,bya) = Ww Saldi (wx +6) — 1] (6. 11) 
其 中 辅助 非 负 变量 a PRET BART. AR BOC Tel A Ae h Se BAO PAK OT Cw.) 的 鞍点 
决定 。 拉 格 朗 日 函数 的 鞍点 具有 实 根 但 是 符号 相反 ; MAMA AR -BPRABEM. BREF 
w 和 必定 最 小 化 ; 同时 关于 a 必定 最 大 化 。 J(w,6b,a) 对 w A ORAS BHO, RA 
下 面 两 个 最 优化 条 件 : 


al (w,b,a) 
条 件 li sw 一 0 
BJCw:p,a) _ 
& ft 2: = 0 
应 用 最 优化 条 件 1 到 式 (6. 11) 的 拉 格 朗 日 函数 ， 得 到 在 重新 安排 项 之 后 ) 


w= Dadix C6. 12) 
应 用 最 优 条 件 2 到 式 (6. 11) 的 拉 格 朗 日 函数 ， 得 到 
> ad， 一 0 (6. 13) 


解 向 量 w 定义 为 N 个 训练 样本 的 展开 。 但 是 注意 ， 尽 管 拉 格 朗 日 函数 的 凸 性 的 解 是 唯一 的 ， 
但 并 不 能 认为 拉 格 朗 日 系数 a; 也 是 唯一 的 。 

同样 需要 十 分 注意 的 是 ， 所 有 以 不 等 式 满足 约束 条 件 的 式 子 ， 相 应 的 乘 子 a 必须 为 0。 换 
句 话 说， 只 有 确切 满足 

aiLd;(w’x; +6) —1] =0 (6. 14) 

的 乘 子 可 以 假定 非 零 。 这 个 性 质 是 Karush-Kuhn-Tuckers 条 件 的 陈述 (Fletcher, 1987; 
Bertsekas, 1995), 

就 像 前 面 提 到 的 ， 原 问题 是 处 理 凸 代价 函数 和 线性 约束 的 。 给 定 这 样 一 个 约束 最 优化 问 
题 ， 可 能 构造 另 一 个 问题 ， 称 为 对 偶 问题 (dual problem) 。 第 二 个 问题 与 原 问 题 有 同样 的 最 优 
值 ， 但 是 由 拉 格 朗 日 鲜 子 提供 最 优 解 。 特 别 地 ， 可 以 陈述 对 侦 定 理 如 下 (Bertsekas, 1995); 


(a) 如 果 原 问题 有 最 优 解 ， 对 偶 问题 也 有 最 优 解 ， 并 且 相 应 的 最 优 值 是 相同 的 。 
(b) ATRE w, 为 原 问 题 的 一 个 最 优 解 和 ao 为 对 偶 问题 的 一 个 最 优 解 的 充分 必要 条 件 是 
w 对 原 问 题 是 可 行 的 ， 并 且 
Dw,) 一 J Cw, sbo ao ) 一 minJ (w,b,a) 
为 了 说 明 对 偶 问 题 是 原 问 题 的 前 提 ， 首 先 逐 项 展开 式 (6. 11) 如 下 : 


N N N 
J (w,6,a) = bww- Said wx, —b) ad; + Sai (6. 15) 
i=l i=] i=1 ， 
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REAG 13? 最 优 条 件 的 性 质 ， 式 (6. 15) 右 端 第 三 项 为 零 。 而 且 从 式 (6. 12) 有 


N N N 
T 
ww Said iw'x; = SS} S aiajd jx? x, 
i=] 


i=l j=] 


相应 地 ， 设 置 目标 函数 J(w,bya) = Qe), 可 以 改写 式 (6. IDA 


Qa) = Da -45 Daad id xi (6. 16) 
其 中 a 是非 负 的 。 注 意 ， 从 J(w,b,a) 转向 QCa) ， 其 中 反映 出 将 原 问 题 转化 为 对 偶 问 题 。 
现在 可 以 陈述 对 偶 问 题 如 下 : 


给 定 训练 样本 可 = {(xi,di)) 六 ， ， 寻 找 最 大 化 如 下 目标 函数 的 拉 格 朗 上 日 乘 子 (an: 
Qa) 一 De 一 > add x 
满足 约束 条 件 
(1) Djad;=0 
(2)a 之 0 %4 i= 1,2, , NE} 


不 同 于 式 (6. 11) 中 基于 拉 格 朗 日 函数 的 原 问 题 ， 式 (6. 16) 中 定义 的 对 偶 问 题 完 全 是 根据 训练 数 
据 来 表达 的 。 而 且 ， 函 数 Q) 的 最 大 化 仅 依赖 于 输入 模式 点 积 的 集合 : 
{xi x; Nj 
一 般 地 ， 支 持 向 量 是 训练 样本 的 子 集 ， 这 意味 着 解 是 稀疏 的 '。 也 就 是 说 对 于 所 有 的 支持 
向 量 ， 对 偶 问 题 的 约束 (2) 以 不 等 式 的 形式 满足 ， 它 们 的 a 非 零 ， 而 对 于 训练 样本 中 的 其 他 
点 ， 约 束 条 件 以 等 式 条 件 满足 ， 它 们 的 a 为 零 。 相 应 地 ， 确 定 用 ,表示 的 最 优 拉 格 朗 日 乘 子 
后 ， 可 以 用 式 (6. 12) 计 算 最 优 权 值 向 量 w,。， 并 写成 


N, 
Wo = Said ix: (6.17) 
i=] 


其 中 N, 是 支持 向 量 的 个 数 ( 即 拉 格 朗 日 乘 子 w, 非 零 的 个 数 )， 要 计算 偏 置 5,。,， 可 以 使 用 获得 
的 w,。， 并 对 一 个 正 的 支持 向 量 应 用 式 (6. 7)， 这 样 有 
b,= l—-wix? Yd? = 二 1 时 


二 1 一 Said ix?” (6. 18) 
回忆 所 有 的 支持 向 量 x ， 相 应 于 训练 样本 中 拉客 朗 日 乘 子 a.; 不 为 零 的 点 (xi,4d;) 。 从 数值 
(实际 ) 角度 来 看 ， 对 于 支持 向 量 使 用 平均 式 (6. 18) 也 许 更 好 ， 即 对 所 有 非 零 的 拉 格 朗 日 乘 子 
平均 。 

最 优 超 平面 的 统计 特性 
在 支持 向 量 机 中 ， 通 过 约束 权 值 向 量 w 的 欧 几 里 得 范 数 对 分 离 超 平面 集合 施加 一 个 结构 。 
特别 地 ， 我 们 可 以 将 定理 表述 如 下 (Vapnik, 1995, 1998): 


DRE OIER AMA ME T tor 的 最 小 球 的 直径 。 由 方程 定义 的 最 优 超 平面 
wix+b, =0 


D? 
h < min [Z] (6.19) 
e 


其 中 顶 符 号 中 表示 大 于 等 于 所 包含 的 数值 的 最 小 整数 ，p 是 等 于 2/|w| MARA, m 是 输入 


有 一 个 VC RSA HEH 
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空间 的 维 数 。 


正如 第 4 章 提 到 的 ，Vapnik-Chervonenkis 维 ， 简 称 VC #, 提供 了 一 种 空间 函数 复杂 度 
的 度量 。 这 个 定理 告诉 我 们 ， 可 以 尝试 通过 正确 选择 分 离 边 缘 。， 控 制 最 优 超 平 面 的 VC 维 数 
〈 即 复杂 性 ) ， 它 与 输入 空间 的 维 数 m 无 关 。 
假定 ， 有 一 个 通过 分 离 超 平面 描述 的 姐 套 结构 如 下 : 
S, = {wx +b: lwl? <a}, k= 1,250 (6. 20) 
由 YC 维 数 h 在 式 (6.19) 定 义 的 上 界 ， 在 式 (6. 20) 中 描述 的 拱 套 结构 可 以 通过 分 离 边 缘 改 写 为 
等 价 形式 


2 
S, -人 rie > k=1,2,- (6. 21) 


其 中 a, 和 cx 都 是 常数 。 

式 (6. 20) 说 明了 最 优 超 平面 是 使 正 反比 例 之 间 的 隔离 边缘 达到 最 大 可 能 的 平面 。 等 价 地 ， 
式 (6. 21) 说 明了 通过 最 小 化 权 值 向 量 w 的 欧 几 里 得 范 数 建立 最 优 超 平面 。 一 定 意义 上 ， 上 述 方 
程 更 加 肯定 了 我 们 对 式 (6. 9) 所 做 出 的 结论 。 


6.3 不 可 分 模式 的 最 优 超 平 面 


到 目前 为 止 重点 关注 线性 可 分 模式 的 情况 。 本 节 我 们 考虑 更 难 的 不 可 分 模式 的 情况 。 给 定 
这 样 一 组 训练 数据 ， 肯 定 不 能 建立 一 个 不 具有 分 类 误差 的 分 离 超 平面 。 然 而 ,我 们 希望 找到 一 - 
个 最 优 超 平 面 ， 使 之 对 整个 训练 集合 平均 的 分 类 误差 的 概率 达到 最 小 。 

在 类 之 间 的 分 离 边缘 称 为 是 软 的 ， 如 果 数 据点 (zx; ,a;) 不 满足 下 面 的 条 件 〈 见 式 (6. 10)) 

d,(w'x; +b) >+1, i= 1,2,:+,N 

这 种 违反 条 件 以 下 面 两 种 方式 之 一 出 现 : 

。 数据 点 (xi ai) 落 在 分 离 区 域 之 内 ， 但 在 决策 面 正 确 的 一 侧 ， 如 图 6. 3a 所 示 。 

。 数据 点 Cid) 落 在 决策 面 错 误 的 一 侧 ， 如 图 6. 3b 所 示 。 


X e X 
a 
p 
SS 
4. 











Xj 











6.3 RAAB: a) 数据 点 x (属于 类 ， 用 小 方块 表示 ) 落 人 了 分 离 区 域内 ， 但 是 在 决策 
平面 的 正确 一 面 ; b) 数据 点 x 〈 属 于 类 %。 ， 用 小 圆圈 表示 ) 落 人 决策 平面 的 错误 一 面 
注意 ， 在 情况 1 我 们 有 正确 的 分 类 ， 但 在 情况 2 分 类 是 错误 的 。 
为 了 处 理 不 可 分 离 数 据点 ， 我们 引入 一 组 新 的 非 负 标量 变量 {&} 全 ;到 分 离 超 平面 〈 即 决策 
面 ) 的 定义 中 ， 表 示 为 : 
d(w'x,+6)21-8&, i=1,2,,N (6. 22) 
HE 称 为 松弛 变量 《slack variable)， 它 们 度量 一 个 数据 点 对 模式 可 分 的 理想 条 件 的 偏离 程 
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度 。 当 0<5 委 1 时 ， 数 据点 落 人 分 离 区 域 的 内 部 ， 但 是 在 决策 面 的 正确 一 侧 ， 如 图 6. 3a 所 示 。 
当 & 之 1 时 ， 数 据点 落 到 分 离 超 平面 的 错误 一 侧 ， 如 图 6. 3b 所 示 。 注 意 到 支持 向 量 是 那些 精确 
满足 式 (6. 22) 的 特殊 数据 点 ， 即 使 之 0。 此 外 满足 4=0 的 点 也 是 支持 向 量 。 注 意 ， 如 果 一 个 
对 应 的 样本 和 >0 被 遗弃 在 训练 集 外 ， 决 策 面 就 要 改变 。 因 此 ， 支 持 向 量 的 定义 对 线性 可 分 和 
不 可 分 的 情况 都 是 相同 的 。 

我 们 的 目标 是 找到 分 离 超 平面 使 其 在 训练 集 上 的 平均 错误 分 类 的 误差 最 小 。 我 们 可 以 通过 

最 小 化 关于 权 值 向 量 w 的 泛 函 达到 此 目的 
DE) = SUE —1) 
泛 函 满足 式 (6. 22) 的 约束 条 件 和 对 上 ‖w ll? 的 限制 。 函 数 Te 是 一 个 指标 函数 ， 定 义 为 
0, €<o 
1, €>0 
ABBE, POX w 的 最 小 化 是 非 凸 的 最 优化 问题 ， 它 是 NP- 完 全 的 5 。 
为 了 使 最 优化 问题 数学 上 易 解 ， 为 了 逼近 泛 函 中 (6) 重 写 函 数 ， 
P(E) = DE 
TH. 通过 形成 泛 函 对 权 值 向 量 w 的 最 小 化 公式 简化 计算 ， 得 出 
Pw, £) = Swiw+ Co (6. 23) 
像 前 面 一 样 ， 最 小 化 式 (6. 23) 中 第 1 项 与 最 小 化 支持 向 量 机 的 VC 维 数 有 关 。 至 于 第 2 项 
Df ， 它 是 测试 错误 数目 的 一 个 上 界 。 

参数 C 控制 机 器 的 复杂 性 和 不 可 分 离 点 数 之 间 的 平衡 ， 它 也 可 以 被 看 作 是 通常 被 称 为 “ 正 
则 化 ”参数 的 倒数 " 。 当 参数 C 选 得 比较 大 的 时 候 ， 有 暗示 着 支持 向 量 机 的 设计 对 训练 样本 了 的 
质量 具有 高 度 的 信心 。 相 反 ， 当 参数 C 选 得 比较 小 的 时 候 ， 认 为 训练 样本 9 中 存在 噪声 ， 因 此 
将 对 其 不 太 强 调 。 

在 任何 情况 下 ， 参 数 C 由 用 户 指定 。 也 可 通过 使 用 训练 〈 验 证 ) 集 由 实验 决定 ， 这 属于 粗 
略 的 重 采样 形式 ， 在 第 7 章 讨论 使 用 交叉 验证 来 优化 选择 正则 参数 〈 即 ，1/C)。 

在 任何 情况 下 ， 都 对 泛 函 D,D 关于 w AEM RR, ERER. 22) 描 述 的 约 
RRA ESO., KR, w 的 范 数 平方 被 认为 是 一 个 关于 不 可 分 离 点 的 联合 最 小 化 中 一 个 数 
量 项 ， 而 不 是 作为 强加 在 关于 不 可 分 离 点 数量 的 最 小 化 上 的 一 个 约束 条 件 。 

对 刚刚 陈述 的 不 可 分 模式 的 最 优化 问题 而 言 ， 线 性 可 分 模式 的 最 优化 问题 可 作为 它 的 一 种 
特殊 情况 。 具 体 地 讲 ， 在 式 (6. 22) 和 式 (6. 23) 中 对 所 有 的 i 置 &; 二 0， 就 把 它们 化 简 为 相应 的 
线性 可 分 情形 。 

我 们 现在 对 不 可 分 离 的 情况 的 原 问 题 正式 地 陈述 如 下 : 

给 定 训练 祥 本 {(zi,qd;)) 六 I ， 寻 找 权 值 向 量 w 和 偏 置 5 的 最 优 值 ， 使 得 它们 满足 约束 条 件 

di(w’x, +6) 1-6, 当 i=1,2,,N (6. 24) 
£20, 对 所 有 i (6. 25) 
并 且 使 得 权 值 向 量 w 和 松弛 变量 后 最 小 化 代价 未 数 


TI(8) = 


N 
P(w, = SwwtC D6 (6. 26) 
i=l 


其 中 ，C 是 用 户 选 定 的 正 参 数 。 
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使 用 拉 格 朗 日 乘 子 方法 ， 以 一 种 与 6. 2 节 所 描述 的 相似 方式 来 处 理 ， 可 以 得 到 不 可 分 离 模式 的 
对 偶 问 题 的 表示 如 下 (参看 习题 6. 3) : 


给 定 训练 样本 Crodh o REBAR aL RRA A BK 


N 
Qa) = da -45 Š aa;did;x]x; (6. 27) 
=1 j=1 
并 满足 约束 条 件 
N 
(1) Said; = 0 


(D0<a<C %i=1,2,-,N 

其 中 ，C 是 使 用 者 选 定 的 正 参 数 。 
注意 ， 松 弛 变量 及 其 拉 格 朗 日 乘 子 都 不 出 现在 对 偶 间 题 中 。 除了 少量 但 很 重要 的 差别 外 ， 
不 可 分 模式 的 对 偶 问 题 与 线性 可 分 模式 的 简单 情况 相似 。 在 这 两 种 情况 下 ， 要 最 大 化 的 目标 函 
数 Qa) 是 相同 的 。 不 可 分 离 情况 与 可 分 离 情况 的 不 同 在 于 ， 限 制 条 件 a; 宇 0 被 蔡 换 为 条 件 更 强 
的 0 委 w 委 C。 除 了 这 个 变化 ,不 可 分 离 情况 的 约束 最 优化 问题 和 权 值 向 量 w 和 偏 置 2 的 最 优 值 
计算 过 程 与 线性 可 分 情况 一 样 。 还 要 注意 支持 向 量 和 以 前 的 定义 相同 。 
无 界 的 支持 向 量 

对 于 一 个 规定 的 参数 C， 满 足 0<aw <C 的 点 (zi,qdi) 称 为 无 界 或 者 自由 支持 向 量 。 当 w 一 
C 时 ， 我 们 发 现 


dF (x) < l, a; = C 
其 中 F(x;) 是 x 通过 支持 向 量 机 实现 的 近似 函数 。 另 一 方面 ， 当 a; 一 0 时 ， 我 们 发 现 
diF (x) >1, a; = 0 
就 上 述 两 个 方面 而 言 ， 对 于 无 界 的 支持 向 量 有 
d;F(x;) = 1 


7R 3 A EA BPR Gd) 有 dF(xi) 王 1 成立， 这 个 条 件 不 能 必然 
地 说 明 相应 的 拉 格 朗 日 乘 子 a; 的 情况 。 
因此 ， 通 过 支持 向 量 机 来 解决 模式 分 类 问题 的 时 候 存在 明显 退化 的 可 能 性 〈 即 ， 弱 化 的 最 
优化 条 件 ) 。 由 此 ， 我 们 说 一 个 点 (x; ,qd;) 精确 满足 隔离 边缘 要 求 是 指 对 相应 的 乘 子 a 可 能 的 
值 没有 限制 。 
Rifkin(2002) 讨论 了 就 计算 而 言 ， 无 界 支持 向 量 的 个 数 是 对 支持 向 量 机 进行 训练 的 难度 
的 主要 原因 。 
用 于 模式 识别 的 支持 向 量 机 的 潜在 思想 
有 了 关于 对 不 可 分 离 模式 如 何 找到 最 优 超 平面 的 知识 后 ， 我 们 现在 建立 用 于 模式 识别 任务 
的 支持 向 量 机 。 
从 根本 上 说 ， 支 持 向 量 机 的 关键 在 于 如 图 6. 4 中 说 明和 总 结 的 两 个 数学 运算 
1. 输入 向 量 到 高 维特 征 空 间 的 非 线性 映射 ， 对 输入 和 输出 特征 空间 都 是 隐藏 的 。 
2. 构造 一 个 最 优 超 平面 用 于 分 离 在 第 1 步 中 发 现 的 特征 。 
两 个 操作 的 基本 理由 在 下 面 解 释 。 
作为 最 后 重要 的 注释 ， 支 持 向 量 的 个 数 决定 了 图 6. 4 隐藏 空间 特征 的 个 数 。 所 以 ， 支 持 向 
理论 提供 了 有 关 决 定 特征 空间 特征 优化 个 数 的 分 析 方 法 ， 从 而 保证 了 对 于 分 类 任务 的 最 
优 性 。 
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”这 一 点 属于 
ERAZ 
输入 数据) 空间 特征 (隐藏 空间 输出 空间 


图 6.4 ”说明 支持 向 量 机 用 来 处 理 模式 分 类 的 两 个 映射 (i ) 输入 空间 到 特征 空间 的 非 线性 
映射 ;，( ji) 特征 空间 到 输出 空间 的 线性 映射 


6.4 使 用 核 方法 的 支持 向 量 机 


内 积 核 

令 工 表示 从 输入 空间 中 取出 的 向 量 ， 假 定 维 数 为 m。。 令 {gj (x) } 科 ;表示 一 系列 非 线性 函数 
的 集合 ， 从 维 数 m 的 输入 空间 转换 成 无 限 维 输出 空间 。 给 定 这 样 的 变换 ， 我 们 可 以 定义 一 个 
与 方程 一 致 的 充当 决策 面 的 超 平面 


Sat =0 (6. 28) 


其 中 (wj;} 六 1 表示 把 特征 空间 转换 成 输出 空间 的 无 限 大 的 权 值 集合 。 在 输出 空间 中 ， 由 决策 平 
面 决定 输入 空间 中 的 点 x 属于 两 个 可 能 类 之 一 : 正 例 或 者 反例 。 为 了 表示 方便 ， 我们 将 式 
(6. 28) 中 的 偏 置 设 为 0。 使 用 矩阵 的 观点 ， 重 写 等 式 为 如 下 的 紧凑 形式 
w d(x) 一 0 (6. 29) 
其 中 中 (x) 是 特征 向 量 ，w 是 相应 的 权重 向 量 。 
正如 6. 3 节 所 述 ， 我 们 试图 寻找 在 特征 空间 中 “转化 后 模式 的 线性 可 分 性 ”。 带 着 这 个 目 
标 ， 可 以 将 式 (6. 17) 的 形式 用 权重 向 量 改 写成 下 列 形式 : 


w= Slaa, box) (6. 30) 
其 中 特征 向 量 表示 为 ， 
中 (xi) = FACON (x) see" |? (6. 31) 
N, 是 支持 向 量 的 个 数 。 所 以 ， 把 式 (6. 29) 代 和 人 式 (6. 30) 中 ， 将 输出 空间 中 的 决策 面 表 示 为 : 
Sah p(x) (x) — 0 (6. 32) 


我 们 立刻 注意 到 式 (6. 32) PN AO Cx OOD 代表 一 个 内 积 。 相 应 地 ， 将 这 个 内 积 写成 
标量 
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ksx) = 7 (x;) 中 (x) = Dopa oa, i= 1,250 N, (6. 33) 
相应 地 ， 可 以 将 输出 空间 的 决策 超 平面 ( 超 平面 ) 写成 


Seid kx) =0 (6. 34) 
函数 &(x,x ) 被 称 为 内 积 核 " ， 或 者 简称 核 ， 正 式 定 义 如 下 (Shawe- Taylor and Cristianini, 2004); 


核 函 数 (x,X;) 是 这 样 一 种 函数 ,计算 嵌入 时 输入 空间 的 两 个 数据 点 在 特征 空间 中 像 的 
内 积 。 

根据 第 5 章 引 入 的 核 的 定义 ， 我 们 可 以 说 明 核 k(x,x;) 是 具有 两 个 基本 特点 ” 的 函数 

特点 1 内 积 核 是 自 变量 的 对 称 函 数 ， 表 示 为 

RCXX) =k(x,.x), 对 所 有 的 Xx;， 

当 x=x; 时 达到 最 大 值 。 
注意 ， 最 大 值 不 一 定 出现 ; 例如 k(xX,Xi)—xX xX, 作为 核 没 有 最 大 值 。 

特点 2 在 一 个 平面 上 的 核 函数 (x,Xi) 的 总 和 是 一 个 常数 。 


如 果 可 以 使 核 k(x,x) 通 过 合适 的 规划 使 得 在 特点 2 下 的 常数 变 成 单位 数 ， 它 将 会 具有 类 似 于 
一 个 随机 变量 的 概率 密度 函数 的 性 质 。 
核 技巧 
检查 式 (6. 34) ， 我 们 可 以 得 出 两 点 重要 的 观察 : 
L 就 模式 分 类 的 输出 空间 而 言 ， 具 体 指定 核 函数 (x,x) 是 充分 的 。 换 名 话说， 无 需 显 式 
计算 出 权重 向 量 ws; 这 也 是 把 式 (6. 33) 的 应 用 称 为 核 技 巧 的 原因 。 
2. 即使 假设 特征 空间 是 无 限 维 的 ， 但 式 (6. 34) 也 定义 了 包括 有 限 项 的 最 优 超 平面 ， 项 的 
数目 与 分 类 器 中 训练 模式 的 个 数 相等 。 
就 观察 1 而 言 支持 向 量 机 也 被 称 为 核 机 器 。 对 于 模式 分 类 ， 机 器 是 由 一 个 NN 维 向 量 参数 化 的 ， 
其 中 第 i 个 参数 是 aidi,i = 1,2,…,N。 
我 们 可 以 将 核 函 数 &(x:，x;) 看 成 一 个 NX N 对 称 矩 阵 的 坟 个 元 素 和 矩阵 
K = (k(xi ,xX )} 人 -1 (6. 35) 
K B—PERERE, BRN; 通常 也 简称 为 Gram BM. EMER EMA BIE the 
指 对 于 任何 与 矩阵 K 可 以 相 容 的 实 向 量 a 满足 以 下 条 件 : 
a Ka 之 0 
Mercer 定理 
式 (6. 33) 对 于 对 称 核 函数 &(x,x) 的 展开 是 在 泛 函 分 析 中 出 现 的 Mercer 定理 的 一 种 特殊 情 
形 。 这 个 定理 可 以 正式 表述 如 下 (Mercer, 1908; Courant and Hilbert, 1970): 


&Cx,X') 表 示 一 个 连续 的 对 称 核 ， 其 中 工 定 义 在 闭 区 间 a<x<b kb, x 和 Xx 类似。 核 k(X， 
Xx ) 可 以 被 展开 为 级 数 
kax) = Dp px) (6. 36) 
其 中 所 有 的 A HREM. 为 了 保证 这 个 展开 式 是 合 理 的 并 且 为 绝对 一 致 收敛 的 ， 充 要 条 
件 是 
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SS kex dy oy dxa >>0 (6. 37) 
TARA (+) RÈ, 这样 就 有 
Ddr < (6. 38) 
成 立 ， 其 中 a 和 hb 是 实 整 数 。 
函数 mw (x) 称 为 展开 的 特征 函数 ，4; 称 为 特征 值 。 所 有 的 特征 值 均 为 正 数 ， 这 个 事实 意味 着 核 
Ax xX ) 是 正定 的 。 反之， 这 个 特点 意味 着 对 于 权重 向 量 w 我 们 可 以 有 效 地 解决 复杂 的 问题 ， 
这 将 在 以 后 讨论 。 
但 是 注意 ，Mercer 定理 只 是 告诉 我 们 对 于 有 的 空间 是 否 存在 一 个 候选 的 核 是 积 核 ， 因 此 
是 否 能 被 支持 向 量 机 采用 。 但 是 它 没有 告诉 我 们 如 何 去 构 造 函 数 gp;(x); 需要 我 们 自己 去 构造 。 
不 过 ，Mercer 定理 是 重要 的 ， 原 因 在 于 对 于 可 用 核 的 数量 进行 了 限制 。 注 意 到 式 (6. 33) 是 
Mercer 定理 的 特殊 形式 ， 因 为 所 有 的 特征 值 都 已 经 归 一 到 单位 范围 内 。 这 也 就 是 为 什么 内 积 
核 被 称 为 Mercer 核 的 原因 。 


6.5 支持 向 量 机 的 设计 


式 (6. 33) 的 内 积 核 &Cx,x:) 的 展开 式 允 许 我 们 建立 一 个 决策 面 ， 在 输入 空间 中 它 是 非 线性 
的 ， 但 它 在 特征 空间 的 像 是 线性 的 。 有 了 这 个 展开 式 ， 我 们 现在 对 支持 向 量 机 受 约束 的 最 优化 
的 对 偶 形式 陈述 如 下 : 


AREMARK GO, di) PRERA RT {a)i ARKAE A hA 
Qla) = Da: -15 S aadd k) (6. 39) 
并 满足 约束 条 件 Ea 
D Dad, =0 


(D0<a<C 4 i= 1,2, N 

其 中 ，C 是 用 户 选 定 的 正 参 数 。 
约束 条 件 〈1) 由 拉 格 朗 日 函数 Q(a) 对 应 的 偏 置 b 的 最 优化 产生 ， 是 式 (6. 13) 的 重 写 。 这 里 陈 
述 的 对 侦 间 题 与 在 第 6.3 节 中 考虑 的 不 可 分 模式 情况 的 形式 相同 ， 除 了 内 积 xx RARE 
h(x, x; ) 所 代替 。 
支持 向 量 机 的 例子 

核 k(x,x;) 的 要 求 是 满足 Mercer 定理 。 只 要 满足 这 个 要 求 ， 怎 样 选择 它 是 有 一 定 自由 度 
的 。 表 6. 1 总 结 了 支持 向 量 机 的 三 个 普遍 类 型 的 内 积 核 函 数 : 多 项 式 学 习 机 器 、 径 向 基 范 数 网 
络 和 两 层 感 知 器 。 下 面 几 点 是 值得 注意 的 : 

1. 用 于 支持 向 量 机 的 多 项 式 核 和 径 向 基 三 数 核 通常 满足 Mercer EM. HAR, AT RBA 
量 机 的 两 层 感 知 器 的 类 型 ， 其 内 积 核 受 到 某 种 限制 ， 如 表 6. 1 最 后 一 行 所 示 。 后 面 的 条 目 证 实 
如 下 的 事实 判定 一 个 给 定 的 核 是 否 符合 Mercer 定理 确实 是 一 件 困难 的 事情 ，。 

2. 对 所 有 三 种 机 器 类 型 ， 特 征 空间 维 数 由 从 训练 数据 抽取 的 支持 向 量 的 个 数 决定 ， 这 些 
训练 数据 是 通过 解决 受 约束 最 优化 问题 来 获得 的 。 

3. 支持 向 量 机 的 基本 理论 避免 启发 式 的 需要 ， 它 们 常 被 用 在 传统 的 径 向 基 畏 数 网 络 和 多 
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层 感 知 器 的 设计 上 面 。 
4. 在 径 向 基 函 数 类 型 的 支持 向 量 机 中 ， 径 向 基 函 数 的 数量 和 它们 的 中 心 分 别 由 支持 向 量 
的 个 数 和 支持 向 量 的 值 自动 决定 。 


表 6.1 Mercer 核 总 结 


































支持 向 量 种 类 Mercer $% k(x, Xi i = 1,2, N 评论 
多 项 式 学 习 机 器 Gxt)? 用 户 事先 指定 指数 p 
径 向 基 函 数 网 络 exp (—a lx— ml?) 和 所 有 核 一 样 ， 由 用 户 实现 指定 宽度 o 





两 层 感知 器 





tanh (PoxTx; + fi) 对 于 茶 些 po 和 有 满足 Mercer 定理 


图 6. 5 显示 一 个 支持 向 量 机 的 体系 结构 ， 其 中 mi 是 隐藏 层 的 大 小 《如 特征 空间 ) 。 
did 





输入 向 量 x < 








大 小 为 mo 的 mi 个 内 积 核 
输入 层 的 特征 层 


图 6.5 使 用 径 向 基 函 数 网 络 的 支持 向 量 机 的 结构 


不 管 支 持 向 量 机 是 如 何 实现 的 ， 基 本 上 它 与 传统 的 设计 多 层 感 知 器 的 方法 不 同 。 在 传统 
的 方法 中 ， 模 型 复杂 性 由 保持 特征 〈 即 隐藏 神经 元 ) 的 数量 最 小 所 控制 。 另 一 方面 ， 支 持 向 
量 机 提供 一 个 机 器 学 习 设 计 的 解决 方案 ， 其 模型 复杂 性 的 控制 独立 于 维 数 ， 总 结 如 下 
(Vapnik, 1995, 1998); 
。 概念 问题 “有 意 便 特征 〈 隐 藏 ) 空间 的 维 数 足够 大 ， 使 得 可 以 在 这 个 空间 建立 超 平 
面 形式 的 决策 面 。 为 了 一 个 好 的 泛 化 性 能 ， 模 型 的 复杂 性 通过 对 所 建立 的 超 平 面 添 
加 一 些 特定 的 约束 条 件 来 控制 ， 这 导致 训练 数据 中 的 一 小 部 分 被 抽出 来 作为 支持 
向 量 。 
， 计算 问题 通过 使 用 核 技 巧 可 以 避免 计算 径 向 基 函 数 网 络 输出 层 中 的 权重 向 量 和 
偏 置 。 


6.6 XOR 问题 


要 说 明 支持 向 量 机 设计 过 程 ， 我 们 再 次 讨论 在 第 4 章 和 第 5 章 讨论 过 的 XOR( 蜡 或 ) 问 
题 。 表 6. 2 给 出 了 4 个 可 能 状态 的 输入 向 量 和 期 望 的 响应 。 


180 .第 6 章 支持 向 量 机 


表 6.2 XOR 问题 


期 望 的 响应 a 











为 了 继续 讨论 ， 我 们 定义 如 下 核 CCherkassky and Mulier, 1998): 


k(x,xi) = (1+x7x;)? (6. 40) 
x= [zi yz |" Al x; = Lata szal] ， 内 积 核 k(xX,Xi) 可 应 用 不 同 次 数 的 单项 式 表示 如 下 : 
kCX, X;) 一 1 + xix, + 22) Xe Tn Lie + xix, + 22,24 + 2X Xi C6. 41) 


输入 向 量 x 在 特征 空间 中 诱导 的 像 可 推断 为 
(x) = [1 Resi ,WV2zlizs T? „2a W222 17 


类 似 地 
(x) = [1.24 W221 Ti sza ,V2za W2x2 |? i = 1,2,3,4 (6. 42) 
使 用 式 (6. 35) 中 的 定义 ， 得 到 Gram HK 
9 1 1 1 
1 9 1 1 
K = 
1 1 9 1 
1 1 1 9 


因此 目标 函数 的 对 偶 形 式 为 〈 参 见 式 (6. 39)): 
Qla) =a, 十 as 十 as tas : (9a? 一 2aiaz 一 2aias + 2a as 





(6. 43) 





+ 9a + 2azaz — Zazas + 9a? — Zazas + Yai) 
对 拉 格 朗 日 乘 子 优化 QCo) 产 生 下 列 联 立方 程 组 : 
9a. 一 ao 一 as a= 1 
— a 9a: Fas — a= 1 
一 oa Haz: + 9a3 — a = 1 


oa 一 aa — a3 + 9a, = 1 





因此 ， 拉 格 朗 日 乘 子 的 最 优 值 为 ， 





Qol T Qo? T Qoa T Qot — 8 
这 个 结果 说 明 ， 本 例 中 所 有 4 个 输入 向 量 {x.} 和 1 都 是 支持 向 量 。Q(a) 的 最 优 值 是 
1 
Q. (a) = Tt 
相应 地 ， 可 写 出 
Liw l= 4 
2 ° 4 
或 者 
1 
lw || = 一 
V2 


从 式 (6. 30) 中 ， 可 以 找到 优化 权重 向 量 


ROR 支持 向 量 机 - 





















































W, xt glx) T gax) + eles) — p(X)] 
nn p a 
1 1 1 1 0 
cal we | leah evel el Leave 
8| fy tho da 1il lo 
一 V2| | 一 vV2| I2 V2 0 
Lv W2 J |-v2] Zj le J 
w 的 第 一 个 分 量 表示 偏 置 5 为 0。 
最 优 超 平面 定义 为 
wiq(x)=0 
扩展 内 积 wo 中 (Xx) 产生 
-1 _ 
xy 
[+012 504040 | Vea 一 0 
V2zi 
LV2zs J 
这 归结 为 
— 21%, 一 0 


关于 XOR 问题 的 多 项 式 形式 的 支持 向 量 机 参见 图 6. 6a。 对 zi 一 zw 一 一 1 和 zi 一 xz 二 十 1， 
输出 y=—1; 对 zi 一 一 1， Xs 二 十 1 以 及 zi 二 十 1， Xs 二 一 1， 输出 y 一 十 1。 因此 如 图 6. 6b 
所 示 ，XOR 问题 获得 解 。 





yah 0 决策 边界 
-1.0@ (1,1) 
(-1,-1) 


a) b) 





图 6.6 a) 多 项 式 机 器 学 习 用 来 解决 XOR 问题 ，b) XOR 问题 的 四 个 点 推导 出 的 特征 空间 的 像 


6.7 计算 机 实验 : 模式 分 类 


本 节 通 过 图 1. 8 中 的 双 月 问题 来 讨论 模式 分 类 问题 。 这 次 ， 我 们 使 用 单 隐 层 的 非 线 性 支持 
向 量 机 。 实 验 在 垂直 可 分 的 两 种 不 同 的 环境 下 进行 ， 分 别 为 4 一 一 6.0 和 d 一 一 6.5。 设 两 个 实 
WER C 为 无 穷 。 训 练 样本 包括 300 个 样本 点 ， 测 试 样本 是 2 000 个 数据 。 同 样 采用 1. 5 节 中 
数据 预 处 理 的 方式 。 

实验 第 一 部 分 我 们 采用 距离 4 一 一 6.0 的 方案 为 的 是 提供 例证 方式 ， 这 种 方式 将 提供 SVM 
和 第 5 章 中 的 用 来 训练 RBF 网 络 的 “K- 均 值 ，RLS” 算 法 的 对 比 ， 该 算法 的 训练 误差 很 小 。 
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图 6.7 展示 了 4d 二 一 6.0 时 支持 向 量 机 的 计算 结果 。 图 6. 7a 显示 当 d= 二 一 6.0 时 的 结果 ， 显 
示 相 应 的 支持 向 量 和 决策 边界 。 从 图 6.7b 中 我 们 可 以 看 到 ， 对 于 未 见 过 的 数据 的 分 类 误差 
距离 d 一 -6， 半 径 =10， 宽 一 6 时 利用 SVM 的 分 类 


























a) 训练 结果 





peti: 
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b) 测试 结果 


图 6.7 MEW d——6 时 SVM 应 用 于 余 1. 8 双 月 的 结果 


图 6. 8 显示 了 实验 的 第 二 部 分 ， 在 复杂 的 情况 下 使 用 了 SVM， 其 中 两 个 月 亮 之 间 的 垂直 
距离 为 4 一 一 6.5。 同 样 ， 图 6, 8a 显示 了 相应 的 支持 向 量 和 决策 边界 ， 图 6. 8b 显示 了 相应 的 
测试 结果 。 这 次 ， 在 2000 个 测试 数据 中 有 11 个 分 错 ， 所 以 误 分 率 为 0.55%。 
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如 前 所 说 ,试验 的 两 个 部 分 都 采用 了 C=ce， 在 这 种 环境 下 ， 需 要 考虑 如 下 两 方面 : 

1. 4 一 一 6.0 时 ， 两 个 月 亮 是 非常 好 的 非 线 性 可 分 情形 ; 如 图 6. 7b 所 示 ， 测 试 数据 上 没有 
误差 恰好 证 明了 这 点 。 

2. 4 一 一 6.5 时 ， 图 1.8 中 的 两 个 月 亮 轻微 地 重合 。 相 应 地 ， 不 再 是 可 分 的 ， 图 6. 8b 中 证 
明了 测试 数据 误差 很 小 。 在 实验 的 第 二 部 分 ， 没 有 寻找 优化 的 C 来 使 训练 误差 变 小 ; 这 个 问题 
将 在 习题 6. 24 中 解决 。 





距离 d 一 -6.5， cmd 宽 =6 时 利用 SVM 的 分 类 


















a) 训练 结果 


距离 4 二 -6.5， 半径 一 10， 宽 王 6 时 利用 SVM 的 分 类 


b) 测试 结果 
图 6.8 MIEN d= 一 6.5 时 SVM 应 用 于 图 1. 8 双 月 的 结果 
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6.8 回归: 和 鲁 棒 性 考虑 


本 章 到 目前 为 止 ， 我 们 重点 关注 利用 支持 向 量 机 求解 模式 识别 任务 。 现 在 ， 我 们 将 考虑 利 
用 支持 向 量 机 求解 非 线性 回归 问题 。 为 了 准备 这 个 讨论 ， 我 们 首先 讨论 适合 这 类 学 习 任务 的 最 
优化 准则 问题 ， 以 重 棒 性 作为 主要 目标 。 有 了 这 样 的 目标 ， 我 们 需要 一 个 模型 ， 该 模型 对 模型 
参数 中 小 的 变化 不 敏感 ， 这 在 后 面 解决 。 
E- 不 敏感 损失 函数 

以 鲁 棒 性 作为 设计 目标 ， 对 于 任何 鲁 棒 性 的 定量 测量 必须 考虑 到 由 于 微小 噪声 模型 的 一 个 
e- 偏 差 而 可 能 产生 最 大 性 能 退化 。 根 据 这 种 观点 ， 一 种 最 优 鲁 棒 估 计 过 程 是 最 小 化 最 大 的 性 能 
恶化 ， 因 而 是 一 种 最 小 最 大 过 程 《Huber，1981)。 当 如 性 噪声 的 概率 密度 函数 关于 原点 对 称 
时 ,求解 非 线性 回归 问题 的 最 小 最 大 过 程 利用 绝对 误差 作为 被 最 小 化 的 量 (Huber, 1964), 
也 就 是 说 ,损失 函数 具有 以 下 形式 : 

L(d,y) = |d— yl (6. 44) 

其 中 d BWAWA, yew 中 (x) 是 相应 的 估计 量 输出 。 

为 了 构造 支持 向 量 机 逼近 期 望 的 响应 4， 我 们 利用 式 (6. 44) 的 损失 函数 的 扩展 ， 它 由 
Vapnik(1995，1998) 最 早 提出 ， 描 述 为 
ld—yl~e 当 |4 一 y| 产 * 
0， 否则 
c 是 指定 的 参数 ， 损 失 函 数 L.(d,y) 称 为 e- 不 敏感 损失 地 数 (e-insensitive loss function), MR 
估计 器 输出 ”和 期 望 输出 a 的 偏差 的 绝对 值 小 于 es， 则 它 等 于 零 ， 否 则 它 等 于 偏差 绝对 值 减 去 
e。 式 (6.44) 的 损失 函数 是 e- 不 敏感 损失 函数 在 c =O 时 的 特殊 情形 ， 图 6. 9 说明 L.(d,y) 和 误 
Z dy) 的 依赖 关系 。 


响应 
d 





L.(d,y) = (6. 45) 


LAay) 

















0 j 回归 
-€ 0 +E ay 
a) b>) 


图 6.9 ”线性 回归 :; a)〉 图 解 半 径 为 e 的 e- 不 敏感 区 域 ， 使 适应 于 用 XX 表示 的 数据 点 ; b》 相应 的 
不 敏感 函数 的 图 


以 式 (6. 45) 中 的 e- 不 敏感 损失 函数 作为 鲁 棱 性 的 基础 ， 我 们 在 后 面 讨论 应 用 支持 向 量 机 理 
论 来 解决 线性 回归 问题 。 


6.9 线性 回归 问题 的 最 优化 解 
考虑 线性 回归 模型 ， 标 量 4 对 向 量 x 的 依赖 可 描述 为 
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d=wx+b (6. 46) 
其 中 参数 向 量 w 和 偏 置 5 都 是 未 知 的 。 问 题 是 给 定 训练 样本 9 一 { (x, d) eS 
参数 ， 其 中 数据 来 自 于 独立 同 分 布 (iid)，。 
给 定 训练 样本 打 ， 考 虑 风险 函数 
Zw? +OS lal, (6.47) 
其 中 加 和 是 e- 不 敏感 训练 误差 的 总 和 ，C 是 一 个 训练 误差 和 惩罚 项 wl? 之 间 的 权衡 。y 是 
输入 样本 x 对 应 的 估计 和 输出。 为 了 达到 要 求 我 们 做 如 下 处 理 。 
最 小 化 式 46. 47) 中 的 风险 函数 ， 约 束 如 下 : 





di— yeité (6. 48) 
yi— di Set €& (6. 49) 
& > 0 (6. 50) 
E> 0 (6. 51) 


其 中 ,i 二 1,2,…,N。& 和 是 两 个 非 负 松弛 向 量 ， 用 来 描述 式 (6, 45) 中  RRRK BH, 


为 了 解 这 个 优化 问题 中 的 拉 格 朗 日 乘 子 a; 和 a， 可 以 使 用 6. 2 节 中 处 理 线性 可 分 模式 的 方 
法 。 首 先 ， 建造 一 个 拉 格 朗 日 函数 (包括 约束 条 件 )， 我 们 将 继续 相应 的 对 侦 变 量 集 。 具 体 地 ， 
首先 写 出 滑 数 


TOW EE asa" ry =F [wilt +O E+E) — ret rE 
— Sai(w'x, +b— d; +e+8) (6. 52) 


N 
一 Sai (d; wx, —b+e+&) 


如 先前 一 样 ， 其 中 w 和 a 是 拉 格 朗 日 乘 子 。 在 式 (6. 52) 中 引入 新 的 乘 子 y: Aly’, ARRIEN F 
RTF a 和 a 假设 变量 的 形式 的 最 优 性 约束 。 最 小 化 式 (6. 52) 关 于 回归 模型 中 参数 w 和 5 的 拉 格 
朗 日 函数 的 要 求 ， 正 如 对 松弛 变量 和 & 一 样 。 

如 先前 优化 过 程 一 样 ， 对 参数 求 导 并 且 令 其 为 0， 分别 获 得 如 下 等 式 ， 





W= >) (a; 一 af)x (6. 53) 
x 一 1 
X (aia) = 0 (6. 54) 
i=1 
a7 =C, i=1,2,,N (6. 55) 
a— y =C, i=1,2,,N (6. 56) 


对 于 计算 出 来 的 乘 子 a; Mets, R65 PHAHASRA ELT MASA. AT 
找到 相应 的 偏 置 〈 用 8 表示 )， 我 们 采用 Karush-Kuhn-Tuner 条 件 。 从 第 6.2 节 的 讨论 中 ， 可 
以 推断 出 为 了 满足 这 些 条 件 ， 对 于 所 有 不 满足 作为 等 式 的 约束 ， 相 应 的 对 偶 变 量 必须 变 为 0。 
对 于 目前 的 问题 ， 我 们 有 两 组 约束 : 

。 第 一 组 如 式 (6. 48) 和 式 (6. 49) 不 等 式 所 描述 ， 分 别 对 应 于 对 偶 变 量 a; Ala’. 

。 第 二 组 如 式 (6. 50) 和 式 (6. 51) 不 等 式 所 描述 ， 分 别 对 应 于 对 偶 变 量 y 和 XY， 从 式 (6.55) 

ATK (6.56), ALAR y:=a:—-C Al y Sa C, 

相应 地 ， 我 们 根据 对 应 的 对 偶 变量 使 用 Karush-Kuhn-Tuner 条 件 到 这 四 个 约束 条 件 ， 分别 
得 到 
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ale +é+d;—y;) =0 (6. 57) 
ale +&—d;+y,) =0 (6. 58) 
(a; —C)E, = 0 (6. 59) 
(ai— C)& = 0 (6. 60) 


通过 查看 上 述 条 件 ， 我 们 得 出 三 点 重要 结论 ; 

1. 式 (6. 59) 和 式 (6. 60) 说 明 当 a;==0 Mai =C 的 样本 Crdi) MF &>0 A g> Ht; 这 
些 松弛 变量 相对 应 的 点 在 e- 不 敏感 区 域 之 外 ， 该 区 域 中 心 就 是 回归 函数 OO Swat (如 图 
6. 10a Frm). 

2. 将 式 (6.57) 乘 上 a 和 式 (6.58) 乘 上 a;， 然 后 相 加 相应 的 结果 ， 得 到 

aa, Ce +E +E) 一 0 
所 以 ， 当 任意 se>>0， 以 及 &>0 和 总 0 时， 我 们 有 如 下 条 件 
aia 一 0 
从 中 可 以 看 到 两 个 乘 子 a: 和 w: 不 可 能 同时 为 非 零 。 
3. 从 式 (6. 59) 和 式 (6. 60) ， 我 们 分 别 观 察 到 
& =0, Homa <C 
&=0, 40<ai<C 
在 这 种 情况 下 ， 由 式 (6. 57) 和 式 (6. 58) 可 以 看 到 
e—d;+y,=0; HO<a<C - (6. 61) 
etd,;—y,=0; 当 0<o<C (6. 62) 
通过 式 (6. 61) 和 式 (6. 62)， 我 们 可 以 计算 偏 置 的 估计 5。 首 先 ， RNBPKSH RRA 
出 如 下 : 


y= Wirx+h 
MPRA Bz, A 
y= Wx, +6 (6. 63) 
把 式 (6. 63) 代 入 式 (6. 61) Ase (6. 62) PBA: 
6=d,—-Wsx,-e, 40<a<C (6. 64) 
和 
b=d,;-Wxt+e, 当 0<a<C (6. 65) 


所 以 ， 给 定 s Ad, 并 且 从 式 (6. 53) 中 知道 和 我 们 可 以 计算 出 偏 置 的 估计 。 

对 于 5 的 计算 ， 理论 上 可 以 使 用 任何 属于 “0，C) 之 间 的 乘 子 。 但 是 ， 在 实际 计算 中 ， 用 
所 有 属于 这 个 域 的 乘 子 计 算出 的 平均 值 更 好 。 
支持 向 量 展开 的 稀疏 性 

从 式 (6. 57) 和 式 (6. 58)， 我 们 可 以 看 到 所 有 在 -不 敏感 的 区 域 里 面 ， 有 

|d: — y: |e 

在 这 种 情况 下 ， 两 个 式 子 括号 中 的 因子 都 是 非 零 的 ， 因 此 ， 为 了 使 式 (6. 57) ASK C6. 58) 都 成 立 
( 即 满足 KKT 条 件 )， 我 们 没有 必要 使 用 所 有 的 x 来 计算 多 。 换 句 话说 ， 式 (6. 53) 的 支持 向 量 


展开 是 稀疏 的 。 

拉 格 朗 日 乘 子 a; Mo ARS MA MT RE. MAG 53) 而 言 ， 在 e- 不 敏感 的 区 域 里 
面 的 点 对 最 后 的 解 没 有 贡献 ， 这 点 在 几何 上 似乎 是 合理 的 。 这 些 特殊 的 点 不 包含 对 最 后 的 解 有 
用 的 信息 CScholkopf and Smola，2002) 。 
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6. 10 ”表示 定理 和 相关 问题 


我 们 通过 建立 表示 定理 来 完成 核 机 器 〈 包 括 支持 向 量 机 ) 的 讨论 ， 不 管 这 些 核 机 器 是 线性 
的 还 是 非 线性 的 。 表 示 定 理 为 我 们 更 好 理解 这 类 重要 的 学 习 机 器 提供 了 很 多 帮助 。 为 了 证 明 这 
个 定理 ， 我 们 首先 来 描述 什么 是 Hilbert 空间 ， 然 后 介绍 什么 是 再 生 核 Hilbert 空间 。 

Hilbert 空间 7 

令 {xi) 让 1 是 内 积 空 间 煞 中 的 一 组 标准 正 交 基 ， 同 样 假定 其 是 无 限 维 的 。 注 意 ， 两 个 向 量 x 
和 x, 满足 标准 焉 交 性 是 指 满足 如 下 双重 条 件 : 

x} x, = 1, Bask (6. 66) 

, 0, 其 他 
第 一 部 分 是 关于 规范 性 ， 第 二 部 分 是 关于 正 交 性 。 这 样 的 空间 称 为 pre- Hilbert 空间 。 赋 范 空 
间 ， 每 个 向 量 都 有 有 限 的 欧 几 里 得 范 数 KE), Æ pre- Hilbert 空间 的 特例 。 

令 交 为 最 大 且 最 广泛 的 向 量 空间 ， 并 具有 无 限 基 {xi}) 宛 1。 在 空间 和 凶 中 的 向 量 不 一 定 具有 如 
FÉR: 


x= Slax (6. 67) 
WRA B rd KRM, a 是 系数 。 定 义 新 的 向 量 
Ya, = Sax, C6. 68) 


ATLA RE MBE, 4n>m 时 ,我 们 计算 两 者 之 间 哆 儿 里 得 距离 的 平方 


lyya ll? = | Oar — Dam Il? = | dS) am |]? = Dd) ai (6. 69) 
£1 k=l © k=mtl 


其 中 ,在 最 后 一 行 我 们 调用 了 式 (6. 66) 的 双重 条 件 。 “ 
鉴于 式 (6. 69), ， 可 以 推导 出 以 下 公式 ， 


1. S ai + 0,4 nym -> co 时 


k=mtl 


2. Yai < co 
另外 ， 对 于 给 定 的 正 数 e, 我 们 可 以 找到 一 一 个 足够 大 的 整数 m 来 满足 
Da <e 
因为 ~ 
Sa = ya 十 Sa 
nye = 4 er 


Xå < co (6. 70) 
k=1 


在 赋 范 空间 中 ， 当 y Ay, 之 间 的 距离 满足 
lyn yn ll 过 <, 对 任意 6 之 0 且 所 有 的 mn>M, 
时 一 列 向 量 {y)?-1 就 是 一 个 收敛 序列 ;这样 的 序列 被 称 为 Cauchy 序列 。 注 意 到 所 有 的 收敛 序 
列 都 是 Cauchy 序列 ， 但 不 是 所 有 Cauchy 序列 都 收敛 。 
PRO, WE x A (x KM, SAMY x 是 这 组 基 的 线性 组 合 而 且 其 长 度 的 平方 
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“十 系数 (ar} 电 :的 平方 和 。 相 反 地 ， 系 数 (as} 忆 ;的 平方 和 说 明了 当 ” 和 靖 都 接近 无 穷 的 时 候 
ll Ya Ym 本 趋向 0， 也 说 明了 收敛 序列 {y} 全 :是 一 个 Cauchy 序列 。 
- 根据 以 上 讨论 ， 显 然 空间 泡 比 内 积 空间 争 更 “完备 ”， 我 们 可 做 如 下 重要 总 结 ; 


一 个 内 积 空间 R 是 完备 的 ， 如 果 该 空间 中 的 所 有 Cauchy 序列 收 化 到 空间 号 中 的 一 个 极 
限 ; 一 个 完备 的 内 积 空间 被 称 为 Hilbert 空间 。 
事实 上， 就 上 述 总 结 而 言 ， 内 积 空 间 角 通常 被 称 为 pre- Hilbert 空间 。 
RAE Hilbert 空间 " 
考虑 一 个 Mercer 核 k(x,，)， 其 中 向 量 eH, FEAT x MAXAR ESE, RK 
些 函 数 是 由 核 &Cx,。) 所 产生 的 。 假 定 f(，) 和 gC(，) 是 由 空间 刍 中 抽取 出 的 两 个 浮 数 ， DAA 
RA 
FO = dak, +) (6. 71) 
All 
gi) = kG o (6. 72) 


其 中 a, Mb, 是 对 于 和 总 8 的 展开 系数 ， 对 于 所 有 的 :和 7。 
给 定 函 数 f(，) 和 g(。)， 我 们 引入 双 线 性 形式 


n 
(Fra) =D) 2 ak X; 6, 


(6. 73) 
=a" Kb 
其 中 K 是 一 个 Gram 和 矩阵， 或 者 核 和 矩阵， 在 式 子 的 第 一 行使 用 关系 
ROX; » R(X; s °) = R(x; »X;) (6. 74) 


然后 式 (6. 73) 可 以 重 写 为 简单 形式 
(fig) = dla OO 天) = Da SHR Hox) 一 Dag (x) (6.75) 


g(x) 





其 中 ， 第 二 行 ， 使 用 Mercer 核 的 对 称 性 。 简 化 成 : 

(fig) = FG) (6. 76) 
式 (6.73) 的 双 线 性 的 定义 是 独立 于 函数 F(。) 和 5g(“。) 的 表示 。 我 们 这 样 说 是 因为 式 (6. 75) 中 
的 和 式 Dag (O 不 随 下 标 数 、 系数 向 量 b 入 MRT, 的 改变 而 改变 。 同 样 ， 式 (6.76) 中 
的 和 式 > f(x) 也 具有 这 样 的 性 质 


另外 ， 从 式 (6.73) 中 ， 可 以 推导 出 下 列 三 个 性 质 : 
性 质 1 HRE STEMS PMMA RH f fog RE (Sf, g) AAA, Pe 


性 质 2 ”缩放 性 和 可 分 配 性 ”常数 对 c 与 d 与 和 空间 凶 中 任何 函数 1，g 和 hh 的 任意 集合 有 
(Ccf + dg) sh) = c( fh) + dlg,h) (6. 78) 


性 质 3 ” 范 数 平方 ”对 空间 牙 中 的 任何 实 值 函 数 f， 我 们 把 式 (6.73) 改 成 fH OA, 
有 如 下 的 平方 范 数 或 者 二 次 度量 : 
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| fll? =f, f) = a Ka 
BA Gram 短 阵 具有 非 负 性 ， 所 以 范 数 平方 
Il fll? So (6. 79) 


借助 这 样 的 事实 BITS Trp OE TSC Of 和 g， 双 线性 项 (f,g) 满足 对 称 性 与 缩 
放 性 和 可 分 配 性 ， 并 且 范 数 WS? = A> 满足 非 负 性 ， 我 们 可 以 正式 地 提出 式 (6.73) 中 的 
(fig) 实际 上 是 一 个 内 积 ; 而 且 这 个 内 积 满足 条 件 当 且 仅 当 f 一 0 时 fig) = 0 。 换 句 话 说 ， 
”包括 函数 f Me 的 空间 8 是 一 个 内 积 空间 。 
由 式 (6.75) 可 以 直接 得 到 附加 的 一 个 性 质 。 具 体 地 ， 令 
gC) = k(x, *) 
有 


Cf R(X, *)) = Sakon) = = Daka x) = f(x), k(x,x) 一 AGO x) (6.80) 


TIR, Mercer % k(x, +) 的 这 个 特征 被 称 为 再 生性 ， 

BRAT A xox, € A 的 函数 的 核 &(x,xi;) 被 称 为 向 量 空间 的 再 生 核 ， 当 满足 以 下 两 个 
条 件 CAronszajn, 1950) 时 : 

1. 对 于 任何 x; CX, AKER z NMRA x xd RFF. 

2. 它 满足 再 生性 。 

而 Mercer 核 确 实 满足 以 上 两 个 条 件 ， 因 此 赋予 了 其 “再 生 核 ”的 名 称 。 如 果 在 其 中 定义 
了 再 生 核 空间 的 内 积 〈 向 量 ) 空间 官 也 是 完备 的 ， 我 们 就 可 以 更 进一步 讨论 一 种 “再生 核 Hil- 
bert 空间 ”。 

为 了 证 明 完 备 性 ， 考 虑 一 个 固定 输入 向 量 x 和 一 对 Cauchy EI £00 hie A fn COO Bras 
其 中 nom, RAR f,《x) 和 f(x) 应 用 式 (6. 80) 的 再 生 核 性 质 ， 可 以 写 出 

fo fx) = (fn OO) — fn ROD 
其 中 右边 是 一 个 内 积 。 然 后 使 用 Cauchy-Schwarz PEA”, RNA 
fr) — fin OR)? L fn) — fin 2? ROK, ROK *) (6. 81) 
k(x,x) 
因此 ， 廊 Co) 是 有 界 的 Cauchy FI), WRB SMI SSR f. 最 后 ， 定义 函数 
yx) 一 limf, (x) 

通过 这 样 的 收敛 Cauchy 序列 来 完备 空间 多 ， 就 获得 了 Hilbert BAH. BAT 已 经 说 明 了 每 个 
Mercer 核 k(x,。) 定 义 了 一 个 Hilbert SMH, HP f(x) 和 k(x,。 ) 的 内 积 再 生 了 函数 
f(x) 的 值 。 这 样 定义 的 Hilbert 空间 被 称 为 再 生 核 Hilbert 空间 ， 以 后 我 们 使 用 首 字母 缩写 
RKHS, 

在 下 面 我 们 用 一 个 重要 定理 来 说 明 RKHS 强大 的 分 析 能 力 。 
表示 定理 的 规范 表述 ” 

我 们 由 Mercer 核 ECx,。) 导 出 一 个 RKHS， 记 为 %。 给 定 任意 实 值 函 数 SOEX WHE 


分 解 为 两 部 分 的 和 ， 这 两 部 分 都 自然 地 位 于 空间 % 中 : 
。 RIERA R, kO noka O) 的 展开 形式 ; 用 f1〈x) 表 示 这 个 
分 ， 使 用 式 (6. 71) 来 表示 该 部 分 


fiC) 一 Dakos- 。) 
。 第 二 部 分 是 正 交 于 核 函数 的 ; 用 f (x) 表示 这 个 部 分 
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因此 可 以 表示 函数 OOH 
fC) = fy CIF, = Dakar OFS, C+) (6. 82) 
对 式 (6. 82) 使 用 式 (6. 78) 的 可 分 配 特征 ， 我 们 有 
FOR) HCFC) ROX, DD 
= Dak, kC; =D) SAY» Dfi? 
由 于 广 (x) 垂 直 于 核 函 数 的 张 量 ， 所 以 第 二 项 为 0， 等 式 因此 变 为 
fo) 一 (Sak (x, ROG DD = ST ask (x; sw) (6. 83) 
等 式 (6. 83) 是 表示 定理 的 数学 表达 ， 和 
任何 RKHS 中 定义 的 函数 可 以 由 一 系列 Mercer 核 函 数 的 线性 组 合 来 表示 。 
然而 ， 还 需要 介绍 更 多 内 容 。 


表示 定理 的 证 化 能 力 
表示 定理 的 重要 特点 是 : AG: 83) 给 定 的 展开 式 使 如 下 的 正则 风险 《价值 函数 ) 最 小 


CN = By don 一 rel + OC FI (6. 84) 


其 中 (x(a), dln) i 是 训练 样本， 了 是 未 知 函 数 , OC || fll) 是 正则 函数 CScholkpf and Smo- 
la，2002) 。 要 使 定理 成 立 ， 正 则 函数 必须 是 参数 的 单调 增 函 数 ; 这 个 条 件 简称 为 单调 性 条 件 。 

式 (6. 84) 右 边 的 第 一 项 是 标准 误差 ， 是 f 的 二 次 函数 。 所 以 ， 通 过 使 用 固定 的 a:€ 民 ， 式 
(6. 83) 的 展开 形式 使 这 项 最 小 。 

为 了 证 明 展 开 式 也 使 风险 函数 8( 了) 的 正则 部 分 达到 最 小 ， 我 们 分 以 下 三 步 处 理 ; 

1. 让 户 代表 与 核 函 数 O, a 的 张 量 正 交 的 部 分 。 所 以 ， 根 据 式 (6. 82)， 每 个 函数 
可 以 用 训练 样本 上 的 核 展 开 并 合并 RER, A 


ACI fll.) = af | Maka ota H (6. 85) 


为 了 数学 上 的 方便 ， 我 们 使 用 新 的 函数 . , 
Ac fly = QC FN) 6. 86) 
而 不 是 使 用 原 正则 函数 OC | )。 这 是 允许 的 ， 因 为 二 次 函数 在 [0,=e) 区 间 上 是 严格 单调 
mM. PRO, 4BM4 AC fit) WRAP ACI fi, 在 [0,co) 上 是 严格 单调 的 。 
对 于 所 有 的 fi ， 我 们 可 以 写成 
Sc FZ =A |Meat ol) (6. 87) 
2. 对 式 (6. 87) 右 边 的 参数 © 使 用 Pythagorean 分 解 ， 可 以 写成 


IA I) SA Meee 92) 





Aci sl = à ||) 
对 优化 条 件 ， 令 六 一 0 生成 以 下 等 式 
Aci FE = A Sak Ox, oÈ) (6. 88) 
3 最 后， 就 式 (6. 86) 所 引入 的 定义 ， 我 们 得 到 期 望 的 结果 
acl fll, = af | akc. >> ||.) (6. 89) 
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于 是 以 下 事实 成 立 :， 只 要 单调 性 条 件 满 足 ， 对 于 固定 的 wER， 表 示 定 理 使 正则 函数 
QC || fll ) 最 小 。 

在 分 解 标准 误差 和 正则 项 时 把 它们 作为 一 个 整体 ， 它 们 两 项 之 间 会 有 个 均衡 。 在 任何 情况 
下 ， 对 于 某 些 固定 的 a;E€ R， 式 (6. 83) 所 描述 的 表示 定理 将 会 使 式 (6. 84) 的 正则 函数 达到 最 
小 ， 从 而 确定 了 表示 定理 良好 的 泛 化 能 力 (Scholkpf and Smola，2002) 。 

在 第 7 章 正则 化 理论 中 我 们 将 使 用 这 个 重要 的 定理 。 


6. 11 小 结 和 讨论 


支持 向 量 机 是 为 了 设计 仅 有 一 个 非 线性 单元 隐藏 层 的 前 馈 网 络 而 设计 的 简洁 而 高 度 原则 性 
强 的 学 习 方 法 。 它 由 植 根 于 VC 维 理论 的 结构 风险 最 小 化 原则 导出 ， 这 一 点 使 得 它 的 推导 更 加 
深刻 ， 结 构 风 险 最 小 化 在 第 4 童 讨论 过。 顾名思义 ， 机 器 的 设计 随 抽 取 训 练 数据 的 子 集 作为 支 
持 向 量 而 定 ， 因 而 代表 数据 的 一 个 稳定 特征 。 支 持 向 量 机 包括 多 项 式 学 习 机 器 、 径 向 基 哨 数 网 
络 和 两 层 感知 器 作为 其 特殊 情形 。 因 此 ， 虽 然 这 些 方法 提供 训练 数据 的 内 在 统计 规则 的 不 同 的 
表示 ， 但 是 它们 都 源 于 支持 向 量 机 这 一 共同 基础 。 

支持 向 量 机 的 另 一 个 突出 的 特点 就 是 批量 学 习 的 核 方法 。 
it 48 

支持 向 量 机 的 行为 随 着 训练 样本 的 数目 增加 而 渐进 地 线性 增长 。 存 在 这 样 的 事实 ， 用 来 解 
决 模式 识别 和 回归 问题 的 计算 代价 都 包括 一 个 二 次 项 和 三 次 项 。 具 体 地 ， 当 C 很 小 时 ， 计 算 代 
价 以 N? 增加 ， 当 C 很 大 时 ， 计 算 代 价 以 N° 增长 〈Bottou and Lin, 2007), 

为 了 缓解 这 个 问题 ， 许 多 商业 优化 库 被 用 于 解决 二 次 规划 问题 。 但 是 这 些 库 的 用 处 比较 有 
限 。 解 决 二 次 规划 问题 的 内 存 需求 也 是 随 着 样本 数目 二 次 增长 。 在 现实 生活 中 的 应 用 通常 包括 
上 于 个 点 ， 因 此 二 次 规划 问题 的 解 不 能 通过 直接 商业 优化 库 来 获得 。 即 : 通常 ，SVM 问题 的 
解 很 稀疏 ， 这 导致 问题 更 加 复杂 ， 因 为 机 器 输出 层 的 权重 向 量 只 包括 相对 于 训练 样本 数目 来 说 
极 少 的 非 零 元 素 。 相 应 地 ， 直 接 用 来 解 支持 向 量 机 中 二 次 规划 问题 的 尝试 对 于 大 型 问题 来 说 行 
不 通 。 为 了 克服 这 个 困难 ， 学 术 界 提出 了 好 几 种 新 方法 ， 总 结 如 下 *”: 

1. Osuma 等 (1997) 发 明了 一 种 新 的 分 解 算法 通过 解决 一 系列 更 小 子 问题 来 得 到 优化 。 
特别 地 ， 分 解 算法 利用 支持 向 量 系 数 的 特点 ， 即 在 a; 二 0 或 a; 二 C 定义 的 两 个 边界 上 是 活 喷 
的 。 据 称 分 解 算法 能 解决 大 约 100 000 个 数据 点 的 问题 ， 表 现 令 人 满意 。 

2. Platt(1999) 扩展 了 Osuna 的 方法 ， 引 入 了 一 个 称 为 序列 最 小 优化 的 算法 (SMO), 将 
大 的 二 次 规划 问题 分 解 成 一 系列 很 小 的 二 次 规划 子 问 题 ， 从 而 不 用 二 次 规划 库 。SMO 的 计算 
时 间 主 要 由 核 计算 决定 ， 所 以 使 用 核 优 化 能 加 快速 度 。 

3. Joachims(1999) 提出 几 种 他 自己 的 新 方法 。 具 体 地 ， 一 个 大 的 SVM 问题 分 解 成 一 系列 
小 的 问题 ， 相 比 于 Osuna 方法 原则 性 更 强 。 另 外 一 种 重要 的 新 方法 就 是 收缩 的 观点 : 如 果 一 
个 点 在 一 段 时 间 内 不 是 无 界 的 支持 向 量 ， 之 后 它 以 极 高 概率 不 会 变 成 支持 向 量 ， 这 个 点 以 后 不 
用 考虑 ， 从 而 节省 计算 时 间 。 

4. Rifkin(2002) 发 明了 一 种 新 的 计算 过 程 称 为 SVMFu 算法 ， 可 以 认为 是 上 述 三 种 方法 的 
结合 。 具 体 地 ， 利 用 三 种 算法 的 优点 结合 其 他 的 特点 。 据 称 本 方法 可 以 通过 解 一 系列 小 的 子 问 
题 来 解决 大 规模 问题 ， 而 这 些 子 问 题 足 够 小 ， 它 们 相应 的 Hessian 矩阵 能 放 人 内 存 。 

5. Drineas and Mahoney(2005) 提出 一 种 算法 ， 算 法 计算 一 个 对 NXN 阶 Gram 矩阵 容易 
判断 的 低 阶 近似 。 通 过 这 种 方式 使 计算 的 速度 更 快 。 新 算法 和 Nystrom 算法 的 关系 可 以 从 积 
分 方程 理论 谈 起 。 

6. Hush 4 (2006) 年 提出 多 项 式 时 间 来 求 支持 向 量 机 问题 中 出 现 的 一 类 二 次 规划 问题 的 


192-86 支持 向 量 机 


近似 解 并 能 保证 精度 。 算 法 分 两 步 : 第 一 步 先 产 生 对 偶 二 次 规划 问题 的 近似 解 ; 第 二 步 将 这 个 
对 偶 问 题 的 解 映射 到 原 问 题 的 解 。 
维 数 灾难 

在 多 层 网 络 中 ， 支 持 向 量 机 固有 的 复杂 度 作 为 一 个 逼近 函数 是 随 着 m 指数 增长 的 ， 其 中 
mo 是 输入 空间 的 维 数 。 另 外 ， 复 杂 度 随 着 s 而 降低 ， 其 中 * 是 平滑 指数 ， 它 是 对 允 近 函数 约束 
的 数目 的 测量 。 从 而 ， 逼 近 函 数 的 平滑 指数 是 制止 维 数 灾难 的 矫正 措施 。 我 们 认为 支持 向 量 机 
为 高 维 函 数 提供 了 一 个 很 好 的 近似 ， 只 要 相应 的 函数 是 平滑 的 。 
结论 

支持 向 量 机 是 最 为 广泛 使 用 的 核 学 习 算 法 。 事 实 上 ， 我 们 可 以 说 在 机 器 学 习 领 域 ， 支 持 向 
量 机 由 于 其 优良 的 泛 化 能 力 ， 易 于 使 用 和 严密 的 理论 基础 等 优点 代表 了 最 新 的 算法 。 还 有 ， 在 
实际 应 用 的 环境 下 ， 存 在 对 解决 模式 分 类 问题 和 回归 问题 的 鲁 棱 性 。 

然而 ， 支 持 向 量 机 的 主要 缺陷 是 ， 随 着 训练 样本 的 数目 增加 ， 计 算 和 存储 要 求 也 快速 增 
加 。 这 些 严重 的 要 求 使 得 处 理 大 规模 问题 时 超越 了 支持 向 量 机 的 能 力 。 实 际 的 主要 缺陷 是 二 次 
规划 问题 ， 而 它 是 SVM 优化 理论 中 的 一 部 分 。 为 了 缓解 问题 的 难度 ， 许 多 方法 的 提出 加 快 了 
SVM 解 的 速度 ， 例 如 许多 上 述 提 到 的 并 行 实现 的 技术 和 分 解 计算 算法 〈Durdanovic et al. , 
2007; Yom-Tov, 2007). 


注释 和 参考 文献 


1. Vapnik 首先 提出 支持 向 量 机 ; Boser, Guyon and Vapnik 于 1992 年 给 出 它 的 第 一 个 描述 。 而 关于 它 的 最 综 
合 且 详细 的 描述 是 出 现 于 Vapnik 在 1998 创作 的 题 为 “Statistical Learning Theory” 一 书 中 ， 该 书 已 经 成 为 
该 领域 的 一 个 经 典 。 

Cucker and Smale(2001〉 的 标题 为 “On the Mathematical Foundations of Learning” 的 文章 中 为 监督 学 习 理 
论 提供 了 严格 的 数学 处 理 技术 ， 重 点 放 在 近似 学 习 和 归纳 推理 的 重要 性 上 。 

Schélkopf and Smola(2002), Herbrich(2002), and Shawe-Taylor and Cristianini( 2004) 的 书 中 都 有 对 核 机 
器 包括 支持 向 量 的 综合 论述 。 

2. 西 优化 是 一 种 特殊 的 优化 技术 ， 包 括 最 小 二 乘法 问题 和 线性 规划 问题 ， 理 论 基 础 已 经 完善 。 而 且 可 以 转化 
到 凸 优化 的 问题 已 经 不 止 是 最 小 二 乘法 问题 和 线性 规划 问题 。 将 问题 转化 到 凸 优化 问题 可 以 获得 如 下 优点 : 
。 解 是 可 靠 且 有 效 的 。 

。 理论 优点 ， 以 形成 对 偶 问题 为 例 ， 相 比 于 原 问题 转化 的 解 ， 计 算 上 更 加 有 效 且 概念 上 更 清晰 。 
有 关 凸 分 析 和 优化 的 详细 的 论述 ， 可 以 查看 Byod and Vandenbergh(2004)and Bertsekas et al. (2003) 的 书 。 

3. 对 偶 性 适用 可 导 目 标 函 数 且 带 约 束 的 任何 优化 问题 ， 原 问题 和 对 偶 问题 都 要 满足 Karush-Kuhn-Tucker 
(KKT) 条 件 ， 这 个 条 件 以 Karush(1939) A Kuhn 与 Tucker(1951) 的 名 字 命名 的 。Kuhn(1976) 的 文章 给 
出 解决 不 等 式 约束 问题 的 历史 性 的 报告 ， 其 中 凸 优 化 起 到 主要 作用 。 

4, Girosi(1998)and Vapnik(1998) 首先 讨论 了 稀 羽 近似 和 支持 向 量 展开 的 关系 。 

Steinwart(2003) 对 于 在 通过 支持 向 量 机 解决 模式 识别 问题 中 出 现 的 稀疏 性 给 出 了 详细 的 讨论 ;特别 地 ， 这 

篇 文章 给 出 了 支持 向 量 个 数 的 下 限 。 沿 着 这 条 思路 许多 对 于 理解 支持 向 量 极 重要 的 结果 得 到 证 明 。 这 篇 文 

章 给 出 三 个 允许 的 损失 函数 ， 

|. BEREHLA PR Lld, y)=max(0,1— dy); 

ii. Ue BE ee pw Ld, y) =[max(0.1—dy) ]*5 

ii. 最 小 二 乘 损失 函数 L(d,y) 一 (1 一 dy)*。 

相应 的 SVM SERRA Lis L: 和 LS。 变量 d 和 y 分 别 表示 相应 的 期 望 输出 和 给 定 输 入 相应 计算 出 的 

响应 。 

通过 使 用 最 小 二 乘 误 差 的 支持 向 量 机 在 Suykens 的 书 “Least-Squares Support Vector Machines” 中 有 详尽 
5. 为 了 研究 计算 复杂 度 ， 我 们 鉴别 两 种 类 别 的 算法 : 
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。 多 项 式 时 间 算 法 ， 需要 问题 规模 的 多 项 式 时 间 来 计算 。 例 如 ， 快 速 Fourier 变换 (FFT)， 用 来 做 谱 分 
析 ， 就 是 一 个 多 项 式 时 间 算 法 ， 运 算 时 间 是 nlogn, Hn 是 问题 规模 。 

。 指数 时 间 算 法 ， 需 要 问题 规模 的 指数 时 间 来 计算 。 例 如 ， 一 个 指数 算法 需要 2" 的 时 间 来 计算 ， 其 中 > 
是 问题 规模 。 

基本 上 ， 我们 认为 多 项 式 时 间 算 法 和 指数 时 间 算 法 都 是 有 效 的 算法 。 

在 实际 生活 中 很 多 问题 没有 有 效 的 算法 。 其 中 的 许多 问题 ， 但 不 是 所 有 ， 似 乎 是 不 可 解 的 ， 通常 被 妇 为 一 

类 称 为 NP- 完 全 (NP-complete) 问题 。 术 语 NP 是 “nondeterministic polynomial” 的 缩写 。 

对 于 NP- 完 全 的 讨论 ， 请 参考 Cook(1971), Garey and Johnson(1979) 和 Cormen et al. (1990)。 

6. 在 最 小 二 乘法 问题 中 ，C 的 倒数 起 到 了 正则 参数 的 作用 。 我 们 在 描述 支持 向 量 机 中 使 用 C 基本 上 是 为 了 和 
这 种 核 机 器 学 习 早 期 的 发 展 一 致 。 

7. Aizerman 等 (1964a，1964b》 在 设计 该 方法 的 潜在 功能 时 首先 提出 关于 内 积 核 的 思想 ， 代 表 了 径 向 基 哨 数 
的 先驱 。 同 时 ，Vapnik and Chervonenkis(1964) 发 展 了 最 优 超 平面 的 思想 。 将 两 种 强大 的 思想 结合 起 来 形 
成 支持 向 量 机 首先 出 现 于 Boser (1992), 

8. 除 6.4 节 讨论 的 性 质 1 和 性 质 2 之 外 有 关 核 性 质 的 讨论 ， 可 以 参见 Sch5lkopf and Smola(2002), Herbirch 
(2002) Al Cristianini(2004)。 

9. 要 描述 最 小 最 大 化 定理 ， 考 虑 函数 fz), HP EX, zE, EAER 

min sup f(x,2) 
ze% 
st rE% 





或 者 相应 地 


max inf f(z,z) 
zE% 
s.tz2€ ¥& 
例如 在 最 糟糕 的 设计 情况 下 ， 应 用 最 小 最 大 化 定理 具有 很 重要 的 工程 应 用 。 有 关 该 定理 的 讨论 ， 参 见 Bert- 
sekas 等 (2003) 。 
Huber 最 小 最 大 化 定理 是 基于 邻 域 的 ， 而 不 是 全 局 的 ， 由 于 它们 排除 非 对 称 分 布 。 然而 这 个 定理 成 功 地 处 
理 了 传统 统计 中 的 许多 问题 ， 特 别 是 回归 问题 。 

10. 有 关 Hilbert 空间 的 讨论 参见 Dorny(1975) 和 Debnath and Mikusinski(1990) 。 

11. 再 生 核 Hilbert 空间 (RKHS) 首先 出 现在 Aronszajin(1950) 中， 该 文章 是 一 个 经 典 。 同样 可 以 参见 
Shawe- Taylor and Cristianini(2004), Schölkopf and Smola(2002) 和 Herbirch(2002), 

12. & xA y EARSPHERBIT, HGR Cauchy-Schwarz RFA, 我们 有 

œp < lxil > lly? 
证 明 是 简单 的 。 不 等 式 说 明了 内 积 的 平方 不 大 于 两 个 向 量 长 度 平方 的 乘积 。 而 式 (6. 81) 中 的 不 等 式 是 为 了 
更 方便 在 再 生 核 Hilbert 空间 考虑 问题 。 

13. 就 历史 背景 而 言 ，Kimeldorf and Wahba(1971) 为 了 解决 基于 最 小 二 乘 函 数 的 实际 统计 估计 问题 而 描述 了 
著名 的 表示 定理 ， 同 样 也 可 以 参考 Wahba(1990)。 而 该 定理 关于 正则 风险 函数 的 泛 化 能 力 首 先是 由 
Schölkopf and Smola(2002) 解决 的 。 

14. 相对 于 支持 向 量 机 这 种 批量 学 习 ， 核 LMS 算法 (Liu 等 ，2008) 则 是 一 种 在 线 学 习 算 法 。 这 种 新 的 算法 
思想 的 来 源 包 括 第 3 章 讨论 的 最 小 二 乘 算法 和 本 章 讨 论 的 再 生 Hilbert 空间 ， 并 把 这 些 思想 复合 地 集成 到 
一 起 。 特 别 地 ， 核 技巧 被 用 于 允许 基于 迭代 的 学 习 。 

15. 关于 二 次 规划 优化 的 综述 参见 Bottou and Lin(2007) 。 


习题 


最 优 分 离 超 平面 
6.1 考虑 用 于 线性 可 分 模式 的 超 平面 ， 它 由 如 下 方程 定义 
wTIX 十 5 一 0 
其 中 w 表示 权 值 向 量 , 5 为 偏 置 ，x 为 输入 向 量 。 如 果 输 入 模式 集 {x;) 儿 满足 附加 的 条 件 


min |w'x,--b|=1 
i=l. N 
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6.10 


则 称 超 平面 对 应 于 标准 对 《ww,6)。 证 明 标 准 对 的 这 个 要 求 导致 两 类 分 离 边界 之 间 的 距离 为 2/ wl。 
在 不 可 分 类 模式 的 背景 下 判断 下 列 陈述 : 错 分 类 意味 着 模式 的 不 可 分 性 ， 但 相反 则 未 必 真 。 
以 不 可 分 模式 的 分 离 超 平面 的 最 优化 作为 原 问题 的 开始 ， 构 造 如 6. 3 节 描 述 的 对 偶 问 题 的 公式 。 
在 本 题 中 ， 利 用 在 第 4 章 讨 论 的 “ 留 一 法 ”估计 不 可 分 模式 的 最 优 超 平面 产生 的 期 望 测试 误差 。 通 过 删 
除 训练 样本 中 任意 一 个 模式 并 且 根 据 剩 下 的 模式 构造 一 个 解 ， 讨 论 使 用 这 种 方法 可 以 引发 的 各 种 可 
能 性 。 
数据 空间 中 最 优 超 平面 的 位 置 由 被 选 为 支持 向 量 的 数据 点 决定 。 如 果 数 据 有 噪声 ， 人 们 的 第 一 反应 也 许 
是 质疑 分 离 边 界 对 噪声 的 鲁 棒 性 。 但 对 最 优 超 平 面 的 详细 研究 揭示 分 离 边 界 对 噪声 实际 上 是 鲁 棒 的 。 讨 
论 这 种 鲁 棒 性 的 根据 。 
内 积 核 kCx;，xi) 是 在 大 小 为 N 的 训练 样本 集 上 计算 的 ， 它 产生 NXN ER 

K= {ks Rea 
其 中 ky 二 k(xi;,%)。 由 于 它 的 所 有 元 素 的 值 为 正 ， 因 此 矩阵 K 是 正 的 。 利 用 相似 变换 

K = QAQ’ 
其 中 A WREX AERE, M O W ADA E E RM MMM, BU K 的 特征 值 和 特征 向 量 构造 内 积 核 
R(x; ,%) 的 表达 式 。 你 可 以 从 这 个 表达 式 得 出 什么 结论 ? 
(a) 证 明 表 6.1 中 的 三 种 Mercer 核 满足 西 不 变性 ， 即 

k(x,x;) = k(QxX, Qx;) 

















其 中 OAAR, EXA 
Or 一 Qr 
(b) 一 般 说 来 ， 这 个 性 质 是 不 是 都 成 立 ? 
Ca) 说 明 Mercer 核 的 正定 性 。 
(pb) 考虑 Mercer 核 k(x; ,x )。 这 样 的 核 满足 Cauchy-Schwarz 不 等 式 。 
ROX; KROG Ni) S ROK KD X; ) 

通过 考虑 2X2 的 Gram EE K 的 决定 因子 来 证 明 Mercer 核 的 这 个 特点 。 
考虑 高 斯 核 





lazy 0... 
kO% sx) = exp( 2 )， 1 一 1 2 
其 中 x Ax, 没有 相同 的 。 说 明 Gram 和 矩阵: 
ROX XI) ROX Ke) … RO XN eX) 


K= R(X, X) k(x: X2) aoe klxn 9X2) 


(XN XI ) kxXN sx) oc k(xN, XN) 
具有 满 秩 -从 代数 的 角度 讲 ， 和 矩阵 天 的 任何 两 列 都 是 线性 独立 的 。 
Mahalanbis 核定 义 为 
k(x,X;) 一 exp(— x= xT A xx)) 
其 中 ceo M 维 输入 向 量 , i = 1,2,…,N 。MXM NERE 
D = diag(o? s03 stao) 
其 中 om oz，…ow BEEK., AARE E TE R O TE ERE A E AER EA SH BH A — Ae 
平滑 参数 〈 即 特殊 的 o). 
为 了 说 明 这 个 性 质 ， 考 虑 函数 





N x—x; {| 2 
F(x) = Daew(- SEE) 
可 以 视 之 为 一 个 密度 估计 (Herbrich，2002)。 对 于 所 有 i 给 定 a; 一 1 M oS, M=2, N=20, ih ef 
数 F(x) 对 值 坐 标 zx 和 zx; 的 图 形 。 
Ci) ca 一 0.5 
(ii) o=0.7 
Cii) ¢=1.0 
Civ) o=2.0 








6. 11 
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并 评述 你 的 结果 。 

HX FEA BAS E PKA IE PRK px .x, (zx1 ,zz) 被 称 为 已 矩阵 ， 只 要 满足 非 负 性 〈 即 半 正 定性 )(Shawe- 
Taylor and Cristianini, 2004), sor 
考虑 两 个 随机 变量 的 集合 X= (X ,Xe 》， 证 明 下 面 陈述 的 正确 性 : 所 有 已 矩阵 都 是 联合 分 布 ， 但 不 是 
所 有 联合 分 布 都 是 已 矩阵 。 


模式 分 类 


6. 12 
6. 13 


6.15 


6. 16 


边界 在 支持 向 量 机 的 设计 中 起 了 很 重要 的 作用 。 鉴 别 其 在 解 模 式 分 类 问题 中 的 重要 作用 。 
使 用 式 (6. 17)， 说 明 线 性 可 分 的 模式 中 的 边界 可 以 用 拉 格 朗 日 乘 子 表示 
1 


? ~ Ns 


( de)” 


其 中 N, 是 支持 向 量 个 数 。 
考虑 带 正 反例 的 线性 可 分 的 训练 样本 (Ord). WER FHD: 


支持 向 量 包 括 用 来 分 别 正 反 例 的 所 有 信息 。 


图 P6. 15 说 明了 包括 正 反 例 的 非 线 性 可 分 的 数据 集合 。 具 体 地 讲 ， 正 反例 之 间 的 决策 边界 是 椭圆 形 。 
找到 一 种 映射 使 得 样本 在 特征 空间 中 线性 可 分 。 ` 


X 


b 负 样 本 











图 P6.15 


用 于 求解 XOR 问题 的 多 项 式 学 习 机 使 用 的 内 积 核定 义 为 


k(x,x;) = (1 x x)? 
求解 XOR 问题 的 指数 p 的 最 小 值 是 多 少 ? 假定 p 为 正 整 数 。 使 用 比 最 小 值 大 的 p 值 会 出 现 什 么 结果 ? 
图 P6. 17 表示 三 维 模式 x 上 运算 的 XOR BRM, HARA 
XOR(a) 572923) = 21 Ox ® z; 
其 中 符号 全 表示 异 或 布尔 函数 运算 符 。 设 计 一 个 多 项 式 学 习 机 ， 分 离 由 这 个 运算 符 输出 所 表示 的 两 
类 点 。 


he Be 


6. 18 


6.19 


度量 


6. 20 


证 明 下 面 的 说 法 

支持 向 量 机 的 解 是 稀 羽 的 ， 但 与 之 相关 的 Gram BERRY RRM, 

支持 向 量 机 解 的 二 次 规划 例 程 提供 了 把 训练 数据 分 成 三 类 的 基础 。 定 义 这 三 个 类 ， 并 且 用 一 个 二 维 的 
图 来 说 明 是 如 何 完成 这 种 分 解 的 。 


许多 不 同 的 方法 可 用 来 快速 获得 支持 向 量 机 的 解 ， 所 以 对 于 不 同 的 算法 性 能 之 间 的 比较 很 重要 。 建 立 
一 套 度量 体系 用 来 处 理 这 样 的 实际 问题 。 


再 生 核 空间 


6. 21 


A ROX» s 7 和 R(x, * ) 记 为 一 对 核 ， 其 中 isj = 1,2, N, 向 量 x; 各 X; 有 相同 的 维 数 ， ik BA: 
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R(X, DRX), 9) = ROX: 9X) 


其 中 等 式 左 边 是 内 积 核 。 
6.22 式 (6.77)、 式 (6.78) 和 式 (6.79) 描 述 了 式 (6.75) 内 积 fog) 最 重要 的 三 个 性 质 。 证明 这 三 个 等 式 描述 
的 性 质 。 


6.23 证 明 下 面 的 说 法 : 
如 果 存 在 一 个 再 生 核 ECxx )， 那 么 该 核 是 唯一 的 。 
计算 机 实验 
6.24 考虑 在 图 1. 8 中 重合 不 可 分 的 情况 。 
(a) 重复 图 6.7 中 的 第 二 部 分 实验 ， 两 个 月 亮 之 间 的 垂直 可 分 界 为 4 二 一 6. 5。 通 过 实验 决定 C 值 使 得 
识别 误差 达到 最 小 。 
(b) 通过 设 定 降低 两 个 月 亮 之 间 的 垂直 距离 d=—6.75, 识别 误差 比 d= 二 一 6.5 时 更 高 。 通 过 实验 决定 
参数 C 使 得 训练 误差 最 小 。 
| 评价 你 的 结果 。 
6.25 在 至 今 的 监督 学 习 算 法 中 ,支持 向 量 机 以 其 强大 的 能 力 而 著名 。 在 这 个 问题 上 ， 支持 向 量 机 受到 了 图 
P6. 25“ 紧 握拳 头 ” 形 状 分 类 问题 的 挑战 。 图 中 三 个 同心 贺 的 半径 分 别 为 di 二 0.2，ds 二 0.5 和 ds 二 0.8 
(a) 产生 100 回合 ， 每 个 回合 随机 选择 200 个 训练 样本 ， 对 于 图 P6.25 中 的 两 个 区 域 各 产生 相同 的 测 
试 数据 。 
(pb) 设 C 二 500， 训 练 一 个 支持 向 量 机 。 据 此 ， 构 造 此 机 器 计算 出 的 决策 边界 。 
Co) 测试 网 络 并 且 确 定 分 类 的 误差 率 。 
(d) 对 C=100 和 C=2 500 重复 以 上 试验 。 
评价 你 的 结果 。 


X 





x) 











图 P6.17 
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正则 化 理论 


本 章 组 织 

本 章 关注 正则 化 理论 的 多 个 方面 ， 它 是 所 有 神经 网 络 和 机 器 学 习 算 法 的 核心 。 在 7.1 节 介 
绍 基础 知识 之 后 ， 我 们 按 以 下 顺序 组 织 本 章 : 

7.2 节 给 出 病态 求 逆 问题 。 

7. 3 节 给 出 Tikhonov 正则 化 理论 ， 它 提供 了 半 监 督学 习 算 法 的 正则 化 的 数学 基础 。 本 章 
此 部 分 也 包括 7.4 节 ， 关 注 隐 藏 层 与 训练 样本 数量 相同 的 正则 化 网 络 。7.5 节 讨论 一 类 广义 径 
向 基 函 数 网 络 ， 其 隐藏 层 是 具有 正则 化 网 络 特征 的 子 集 。 正 则 化 最 小 二 乘 估计 在 7.6 节 中 被 重 
新 提 到 ， 作 为 广义 径 向 基 逊 数 类 的 特例 。 接 下 来 ， 在 7.7 节 中 ， 我 们 说 明 由 正则 化 最 小 二 乘 信 
计 推 出 的 深刻 观点 ， 即 在 不 使 用 Tikhonov 正则 化 理论 的 情况 下 ， 如 何 被 用 于 其 他 估计 算 子 的 
正则 化 。 

7. 8 节 描 述 基 于 交叉 验证 来 估计 正则 化 参数 的 一 个 过 程 。 

本 章 的 最 后 一 部 分 开始 于 7.9 节 中 对 半 监 督学 习 的 讨论 。 然 后 ， 关 于 流 形 正则 化 的 基本 观 
点 在 7.10 节 到 7.12 节 中 讨论 。7.13 节 介 绍 光 谱 图 理论 。7. 14 节 讨论 在 流 形 正则 化 理论 下 的 
广义 表示 定理 。?. 15 节 研 究 (使 用 带 类 标 样本 和 无 类 标 样本 的 ) 光谱 图 理论 的 正则 化 最 小 二 
乘 估计 ， 其 作为 广义 正则 化 理论 的 一 个 应 用 实例 。 在 7.16 节 中 ,我们 采用 最 小 二 乘 估计 给 出 
一 个 半 监 督学 习 的 计算 机 实验 。 

7.17 节 给 出 本 章 的 小 结 和 讨论 。 


7.1 引言 


在 本 书 前 几 章 所 讨论 的 监督 学 习 算 法 中 ， 我 们 发 现 尽管 过 程 不 同 ， 但 它们 都 有 一 个 共 
同 点 : 

通过 样本 训练 一 个 网 络 ， 对 于 给 定 的 给 入 模式 给 出 输出 模式 ， 等 价 于 构造 一 个 超 乎 面 《 即 
多 维 映射 )， 用 输入 模式 定义 输出 模式 。 


从 样本 中 学 习 是 一 个 可 逆 的 问题 ， 因 为 其 公式 是 建立 在 由 相关 直接 问题 的 实例 中 获得 的 知 
识 之 上 ;， 后 一 类 问题 包含 潜在 的 未 知 物理 定律 。 但 是 ， 在 现实 情况 下 ， 我 们 通常 发 现 训练 样本 
会 受到 极 大 的 局 限 : 


训练 样本 所 包含 的 信息 内 容 通常 不 能 够 充分 地 由 自身 唯一 地 重 构 出 未 知 的 输入 输出 映射 。 
因此 就 产生 了 机 器 学 习 的 过 拟 合 的 可 能 性 。 

为 了 克服 这 个 严重 的 问题 ， 我 们 可 以 使 用 正则 化 方法 ， 其 目的 是 通过 最 小 化 如 下 的 代价 函 
数 的 方法 把 超 平面 重 构 问题 的 求解 限制 在 压缩 子 集中 : 

(正则 化 代价 函数 ) = (BRR BBO 十 (正则 化 参数 ) X (正则 化 项 ) 

给 定 一 个 训练 样本 ， 假 设 经 验 风 险 或 标准 代价 函数 可 以 由 误差 平方 和 定义 。 附 加 的 正则 化 算 子 
是 用 来 平滑 超 平面 重 构 问题 的 解 。 因 此 ， 通 过 选择 一 个 适当 的 正则 化 参数 《在 设计 者 控制 下 )， 
正则 化 代价 函数 提供 了 在 训练 样本 的 精度 (包含 在 均 方 误差 中 ) 和 解 的 光滑 程度 之 间 的 折 中 。 

本 章 学 习 两 个 基本 的 重要 问题 ， 

L 经 典 正 则 化 理论 ， 它 建立 在 我 们 刚刚 描述 的 正则 化 代价 函数 上 。 这 个 由 Tikhonov 
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(1963) 给 出 的 优美 理论 ， 为 前 面 章节 中 讨论 的 正则 化 算 子 提供 了 统一 的 数学 基础 。 另 外 ， 它 提 
出 了 新 的 思想 。 

， 2. 广义 正则 化 理论 ， 它 通过 引入 第 三 个 项 ， 扩 展 了 Tikhonov 的 经 典 正则 化 理论 公式 。 这 
个 新 项 叫做 流 形 正则 化 算 子 ， 由 Belkin 等 (2006) 提出 ， 研 究 用 于 产生 无 类 标 样本 〈 即 没有 预 
期 响应 的 样本 ) 的 输入 空间 的 边缘 概率 分 布 。 此 广义 正则 化 理论 对 依赖 于 结合 使 用 带 类 标 样 本 
和 无 类 标 样 本 的 半 监 督学 习 提供 了 数学 基础 。 


7.2 良 态 问 题 的 Hadamard 条 件 


BA (well posed) 这 个 词 是 由 Hadamard(1902) 最 初 提出 的 ， 并 且 在 应 用 数学 中 一 直 沿 
用 至 今 。 要 解释 这 个 术语 ， 假 定 我 们 有 一 个 定义 域 多 和 一 个 值 域 %， 其 中 通过 一 个 固定 但 未 知 
的 映射 f 关联。 如 果 以 下 三 个 Hadamard 条 件 成 立 ， 那 么 重 构 映 射 了 的 问题 就 被 称 为 是 良 态 的 
(Tikhonov and Arsenin, 1977; Morozov, 1993; Kirsch, 1996); 

1. FEE SPR PRA xC, FE-PE y 二 f(x)， 其 中 yey. 

2. 唯一 性 “对 于 任意 输入 向 量 对 x EX, A fOO=f() 4AM xt, 

3. 连续 性 ”映射 f 是 连续 的 ; 即 对 于 任意 的 e> 映射 A-) 

0， 存 在 6 二 6(e) 使 得 条 件 or (x,1) 二 6 蕴含 py (fC), 

FO) <e, HE pC +,» ) 表 示 两 个 变量 各 自 空间 之 间 < -一 
的 距离 。 此 准则 如 图 7.1 所 示 。 连 续 性 同样 也 称 为 稳 

定性 。 

如 果 这 些 条 件 中 的 任何 一 个 都 不 满足 ， 就 称 此 问 EI ERY 
题 为 病态 的 (ill posed) 。 基 本 上 说 ， 病 态 问题 意味 着 图 7.1 We A ROPER H RUN BRE GI 
大 的 数据 集 可 能 只 包含 关于 预期 解 的 一 小 部 分 信息 。 

在 监督 学 习 的 环境 下 ，Hadamard 条 件 可 能 由 于 以 下 原因 被 破坏 。 一 ， 存 在 性 准则 可 能 会 
因为 对 于 每 个 输入 不 一 定 存在 唯一 的 输出 而 被 破坏 。 二 ， 训 练 样本 中 可 能 没有 许多 我 们 所 需要 
的 用 于 构造 一 个 唯一 的 输入 输出 映射 的 信息 ; 因此 ， 唯 一 性 准则 可 能 被 破坏 。 三 ， 在 实际 训练 
数据 中 噪声 或 不 准确 数据 是 不 可 避免 的 ， 这 增加 了 重 构 过 程 的 不 确定 性 。 特 别 地 ， 如 果 输 入 数 
据 中 的 噪声 级 别 很 高， 神经 网 络 或 机 器 学 习 会 对 定义 域 多 中 的 特定 输入 x 产生 一 个 在 值 域 % 之 
外 的 输出 ; 换 而 言 之 ， 连 续 性 准则 可 能 会 被 破坏 。 如 果 一 个 学 习 问 题 不 具有 连续 性 ， 则 所 计算 
的 输入 输出 映射 与 学 习 问 题 的 准确 解 无 关 。 没 有 什么 办 法 可 以 解决 这 些 困难 ， 除 非 我 们 可 以 获 
得 一 些 关 于 输入 输 出 映射 的 先 验 信息 。 在 这 个 背景 下 ， 我 们 可 以 用 Lanczos 关于 线性 微分 算 子 
(Lanczos, 1964) 的 一 句 论断 提醒 我 们 自己 : 


任何 数学 技巧 都 不 能 补救 信息 的 缺失 。 


7.3 Tikhonov 正则 化 理论 
1963 年 Tikhonov 提出 了 一 种 新 方法 用 以 解决 病态 问题 ， 该 方法 就 是 正则 化 。 在 曲面 重建 
的 问题 上 ， 正 则 化 的 基本 思想 就 是 通过 某 些 含有 解 的 先 验 知识 的 非 负 的 辅助 泛 函 来 使 解 稳定 。 
先 验 知识 的 一 般 形 式 涉及 假设 输入 输出 映射 函数 〈 即 重建 问题 的 解 ) 是 光滑 的 ， 即 
对 于 一 个 光滑 的 输入 输出 映射 ， 相 似 的 输入 对 应 着 相似 的 输出 。 
具体 来 说 ， 我 们 将 用 于 逼近 的 输入 输出 数据 〈 即 训练 样本 ) 集合 描述 如 下 : 
输入 信号 x E€ R”, i=1,2,%,N 
期 望 响应 d E R, i=1,2,…,N (7.1) 
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注意 这 里 假定 输出 是 一 维 的 。 这 种 假设 并 不 会 限制 这 里 讨论 的 正则 化 理论 的 一 般 性 应 用 。 用 
F(x) 表 示 到 近 冰 数 ， 这 里 为 了 方便 表达 ， 我 们 在 变量 中 省 掉 了 神经 网 络 的 权 值 向 量 w。 从 根本 
Evi, Tikhonov 的 正则 化 理论 包含 两 项 : 

1 Rž Ag, BUWAS (RMR, WHIM Fx) MVEA (x, dL NBR. Bil 
如 ， 对 于 最 小 二 乘 估计 ， RAIA An TERE (损失 ) AK: 


€(F) = $i — F(x)? (7. 2) 


其 中 多 中 的 下 标 s 表示 “标准 化 ”。 对 于 另外 个 不 同 的 例子 ， 即 支持 向 量 机 ,我们 有 边缘 损 
失 函 数 : 


ECF) = Wa max(0,1— diF (x)), di © {—1, +1} 


我 们 当然 可 以 把 所 有 的 例子 包含 在 一 个 简单 的 公式 中 ， 但 这 两 个 基本 损失 函数 的 含义 是 完全 不 
同 的 ， 它 们 的 理论 研究 也 早晚 会 被 不 同 对待 。 为 了 能 够 清楚 地 阐述 ， 我 们 将 关注 式 (7.2) 中 的 
误差 函数 。 

2. 正则 化 项 ， 用 名 (FF) 表 示 ， 依 赖 于 逼近 函数 F(x) 的 “几何 ”性 质 。 具 体 定义 为 


&(F) 一方 | DF ||’ (7.3) 


Ep, BM Pic 代表 复杂 度 ，D DERHADAT. KM CARA Bi A aR FCx)) 
的 形式 的 先 验 知识 就 包含 在 算 子 D 中 ， 这 就 自然 使 得 D 的 选取 与 所 解 的 问题 有 关 。 我 们 也 称 D 
为 稳定 因子 (stabilizer) ， 因 为 它 使 正则 化 问题 的 解 稳定 ， 使 解 光 省 从 而 满足 连续 性 的 要 求 。 
但 是 ， 光 滑 性 意味 着 连续 性 ， 而 相反 未 必 为 真 。 用 于 处 理 式 (7. 3) 所 描述 情况 的 解析 方法 是 建 
立 在 第 6 章 所 讨论 的 Hilbert 空间 的 概念 之 上 的 。 在 这 样 的 多 维 〈 严 格 说 来 是 无 限 多 维 ) 空间 
中 ， 一 个 连续 函数 由 一 个 向 量 来 表示 。 通 过 使 用 几何 图 像 ， 我 们 就 可 以 在 线性 微分 算 子 和 和 抢 阵 
之 间 建 立 深刻 的 联系 。 由 此 对 线性 系统 的 分 析 就 可 以 转变 为 对 线性 微分 方程 的 分 析 (Lanczos, 
1964), FE. 07.3 PAS ||) 表示 定义 在 DF(x) 所 属 的 Hilbert 空间 上 的 范 数 。 把 线性 
微分 算 子 D 看 成 一 个 从 下 所 属 的 函数 空间 到 Hilbert 空间 的 映射 ， 我 们 很 自然 地 在 式 (7. 3) 中 
使 用 上; 范 数 。 

训练 样本 = {x;,d;}&; ， 由 一 个 物理 过 程 产生 ， 用 如 下 的 回归 模型 表示 : 

di = f(x) +e, i=1,2.,N 

其 中 x 是 回归 量 ，d 是 响应 ，e; 是 解释 误差 。 严 格 地 说 ， 我 们 需要 函数 f(x) 是 有 Dirac delta 
分 布 形式 的 带 有 再 生 核 的 再 生 核 Hibert 核 空间 (RKHS) (Tapia and Thompson, 1978); 此 
要 求 的 必要 性 将 在 后 面 的 讨论 中 给 出 。RKHS 的 概念 已 在 第 6 章 中 讨论 过 。 

AEP) RARER GRE) 函数 ，Q(F) 表 示 正 则 化 函数 。 则 假定 在 正则 化 理论 中 ， 用 
于 最 小 化 的 最 小 二 乘 损失 量 为 : 


ECF) = EF HAC) = LD 一 Foo 了 十 1) || DF Il? (7.4) 


其 中 4 是 一 一 个 称 为 正则 化 参数 的 正 实数 ， ECE Mi Tikhonov ž $. 泛 函 (定义 在 一 些 适 当 的 
函数 空间 中 ) 把 函数 映射 为 实数 。Tikhonov 泛 函 辕 (F) 的 最 小 点 《〈 即 正则 化 问题 的 解 ) 用 
F, (x) 表示 。 值 得 注意 的 是 ， 式 (7. 4) 可 以 看 作 一 个 有 约束 的 最 优化 问题 ， 在 施加 在 OC) EB 
约束 条 件 下 最 小 化 名 (Ff)。 为 了 实现 此 目的 ， RIAA- DEARER F 的 复杂 度 上 的 显 式 
AR. 

另外 ， 我 们 可 以 把 正则 化 参数 4 看 作 在 由 给 定 训 练 样本 确定 的 解 F (x) 的 充分 条 件 的 指示 
器 。 特 别 地 ， 在 )->0 极限 条 件 下 ， 此 问题 是 无 约束 的 ， 因 为 F(x) 的 解 完 全 由 样本 确定 。 在 
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另 一 个 * 一 oo 的 极限 条 件 下 ， 由 微分 算 子 DD 施加 的 先 验光 滑 约束 对 求解 已 Cx) 是 充分 的 。 换 句 
话说 ， 样 本 是 不 可 靠 的 。 在 实际 应 用 中 ， 正 则 化 参数 A 被 赋予 一 个 在 这 两 种 极限 条 件 之 间 的 
值 ， 所 以 训练 样本 和 先 验 知识 都 可 以 对 求解 F(x) 起 到 作用 。 因 此 ， 正 则 项 &(F) 一 


J DF I)? 代表 一 个 复杂 度 罚 函数 模型 ， 其 对 最 终 解 的 影响 由 正则 化 参数 控制 。 


另外 ， 我 们 可 以 把 正则 化 过 程 看 作对 第 2 章 中 所 讨论 的 有 偏方 差 问题 的 解决 。 特 别 地 ， 正 
则 化 参数 的 最 优选 择 可 用 来 通过 加 入 正确 的 先 验 信息 ， 以 在 模型 偏 置 和 模型 方差 中 平衡 来 实 
现 。 此 方法 可 以 解决 一 些 学 习 问 题 。 

Tikhonov 正则 化 应 用 

对 正则 化 理论 的 讨论 至 此 ， 我 们 一 一 直 强 调 如 使 用 式 (7.1) 中 d E RR 的 回归 问题 。 然 而 ， 我 
们 必须 认识 到 Tikhonov 正则 化 理论 同样 可 以 应 用 于 以 下 两 个 其 他 领域 : 

1. 分 类 。 此 问题 可 以 简单 地 通过 诸如 把 二 值 类 标 当 作 标 准 最 小 二 乘 回归 中 的 实 值 来 解决 。 
在 另外 的 例子 中 ， 我 们 可 以 使 用 经 验 风 险 〈 即 代价 ) 函数 ， 比 如 说 更 适合 模式 分 类 问题 的 关键 
损失 。 第 6 章 中 讨论 的 支持 向 量 机 就 是 如 此 。 

结构 预测 。 在 一 些 最 近 的 工作 中 ,已 将 Tikhonov 正则 化 理论 用 于 结构 预测 ， 比 如 ， 输 
出 空间 可 以 是 一 个 序列 、 一 棵 树 或 其 他 一 些 结构 的 输出 空间 (Bakir 等 ，2007) 。 

这 里 我 们 希望 强调 的 是 ， 正 则 化 理论 在 几乎 所 有 的 需要 从 有 限 数量 的 训练 样本 中 学 习 的 应 
用 中 都 处 于 核心 地 位 。 

Tikhonov 7 M iy Fréchet 微分 
正则 化 原理 可 以 表述 如 下 : 


求 使 Tikhonov #2 AEF) K+) 4 HU BHR F(x), Tikhonov 248 
ECF) = BPF) +A €CF) 
EL, EPEPARARZR, FÆ ELA, 而 人 是 正则 化 套数 。 


为 进行 代价 泛 函 %(F) 的 最 小 化 ， 我 们 首先 需要 求 6(F) 微 分 的 规则 。 可 以 用 Fréchet 微分 
来 处 理 这 件 事 。 在 初等 微 积 分 中 ， 曲 线 上 某 点 的 切线 是 在 该 点 邻 域 上 的 曲线 的 最 佳 通 近 直线 。 
同 理 ， 一 个 泛 函 的 Fréchet 微分 可 以 解释 为 一 个 最 佳 局 部 线性 逼近 。 这 样 泛 函 加 (下 ) 的 Fréchet 
微分 可 正式 定义 如 下 : 


d BF,h) = CF + ph) | (7.5) 


[3s 
其 中 PCx) 是 一 个 固定 的 关于 向 量 x 的 函数 (Dorny, 1975; Debnath and Mikusinski, 1990; 
de Figueiredo and Chen，1993) 。 在 式 (7. 5) 中 应 用 通常 的 微分 法 则 。 对 于 所 有 的 EH, mH 
F(x) 为 泛 函 gC(F) 的 一 个 相对 极 值 的 必要 条 件 是 ， 泛 函 名 (F) 的 Fréchet 微分 d OCF A) F(x) 处 
WHE, RRA 

dF,h) = dF,h) +Ad& (FA) = 0 (7. 6) 
其 中 dG CF. WM A&E ADAH BE (F) ME (CF) A Fréchet 微分 。 为 了 简化 表示 ， 在 式 
(7.5) HF h HARA CK), 

计算 式 (7. 2) 中 标准 误差 项 多 (Fh) MH Fréchet 微分 如 下 : 


d BF,h) = = [pe CF + 8h) | _-(F 4 Dia = Fou) = pho P| an 


= SEa, F) — BACK) JAC) | poo =— Mla, — FO) Tae) 
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Riesz 表示 理论 


为 了 继续 处 理 Hilbert 空间 中 的 Fréchet 微分 问题 ， 我 们 发 现 引 人 Riesz 表示 定理 是 有 益 
的 ， 陈 述 如 下 (Debnath and Mikusinski, 1990): 


A f A Hilbert 空间 上 的 一 个 有 界线 性 泛 画 。 存 在 一 个 ho 所， 使 得 
f) = 二 《hho)w， 对 所 有 hE 
且 
| fll = Wl Ao lx 
其 中 ho 和 了 在 它们 各 自 空间 上 都 存在 范 数 。 


这 里 所 用 的 符号 《.，.…); 表 示 % 空 间 上 两 个 聘 数 的 内 积 〔 标 量 )。 因 此 ,根据 Riesz 表示 定 
理 ， 可 以 重 写 式 (7.7) 中 的 Fréchet 微分 dé&(F, AUF: 


dg.(F,h) =— <h, Da 一 下 )8。)， (7.8) 
其 中 8. 表示 以 x 为 中 心 的 x 的 Dirac delta 分 布 ; 即 
6x, (x) = d(x — Xi) (7.9) 


下 面 计 算式 (7. 3) 的 正则 化 项 多 (F) 的 Fréchet 微分 。 用 与 上 面 同 样 的 方法 可 以 得 出 〈 假 设 
DFEL, (R™)): 


-4 -ld 2 
d&b = REE l = | - (DEF + fh)? dx | po 


dé. 
. (7. 10) 
=| .DLF+ PIDh dx | pao = | a DFD} dx = (Dk, DF), 


其 中 (Dh，DF), 是 函数 DAW A DFCx) 的 内 积 ， 函 数 DACA DFCx) 分 别 代表 了 微分 算 子 D 
作用 在 h(x) 和 FC(x) 上 的 结果 。 
Euler- 拉 格 朗 日 方程 

给 定 一 个 线性 微分 算 子 D， 我们 可 以 唯一 确定 它 的 伴随 算 子 (adjoint operator) BD, fi 
对 任 一 对 足够 可 微 且 满足 恰当 的 边界 条 件 的 函数 uC) A v(x) 有 CLanczos, 1964); 


| u(x) Du(x) dx = | ,-2 Buco dx (7.11) 
R 


等 式 (7. 11) 叫 做 Green 恒等式 ， 它 为 通过 给 定 微分 算 子 D 来 确定 其 伴随 算 子 节 提 供 一 个 数学 基 
础 。 将 DD 看 作 一 个 从 阵 ， 则 其 伴随 算 子 汪 的 作用 类 似 于 一 个 转 置 矩 阵 的 作用 。 
比较 式 (7. 11) 的 左边 和 式 (7. 10) 的 第 四 行 ， 我 们 可 得 出 如 下 恒等式 : 
u(x) = DEG 
Do(x) = Dh(x) 
根据 Green 恒等式 ， 可 将 式 (7. 10) 重 写 为 如 下 等 价 形式 ， 


dg Fh) = |_| ROODDFOOdx = (h BDF), (7.12) 
其 中 节 是 D 的 伴随 算 子 。 
将 式 (7 8) 和 式 (7.12) 代 入 极 值 条 件 (7. 6) 中 ， 可 以 重新 得 到 Fréchet 微分 dCF,h) 如 下 、 
d BF,h) = Ch, [dor -+> a —F)6: |) (7. 13) 
£ 


因为 正则 化 参数 4 通常 取 开 区 间 (0, co) 上 的 某 个 值 ， 所 以 当 且 仅 当 下 列 条 件 在 广义 函 
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A F=F, 下 满足 时 ， 对 于 空间 光 中 的 所 有 函数 AO), Fréchet 微分 dE(F WAH: 
DDF, -1y Cdi — Fs, = 0 
或 者 等 价 于 ; 
DDF, (x) = ia — F,(x,) Jax —x;) (7.14) 


07. 14) Tikhonov 2% MEC) HJ Euler- 拉 格 朗 日 方程 ， 它 定义 了 Tikhonov 泛 RKE) E 
F(x) 处 有 极 值 的 必要 条 件 (Debnath and Mikusinski, 1990). 

Green 因数 

AC. IDRAR TEU PR F 的 偏 微分 方程 。 该 方程 的 解 是 由 方程 右边 的 积分 变换 组 成 的 。 
我 们 现在 先 简单 地 介绍 Green 函数 ， 然 后 再 继续 求解 式 (7. 14) 。 

令 GCx,&) 表示 向 量 x 和 总 的 一 个 函数 ， 两 个 向 量 的 地 位 相同 ， 但 它们 的 目的 不 同 ， 向 量 x 
作为 参数 ， 而 向 量 5 则 作为 自 变量 。 对 于 给 定 的 线性 微分 算 子 工 ， 我 们 规定 函数 CCx,5) 满 足 如 
下 条 件 (Courant and Hilbert, 1970): 

1. MEAE EGO D 是 xz 的 函数 ， 且 满足 规定 的 边界 条 件 。 

2. 除了 在 点 x 一 外 ，G(x,&) 对 于 x 的 导数 是 连续 的 。 导 数 的 次 数 由 线性 算 子 L 的 阶 数 
决定 。 

3. 将 G(x,E&) BYE x BRAR BRIO TERR x 一 5 奇异 外 ， 它 满足 偏 微分 方程 


LG(x.§) = 0 (7.15) 
tH, Bl pa GOK DME CHES” MPRA EP) 
LG(x,§) = d(x— §) (7. 16) 





其 中 ， 如 前 定义 SCx 一 外 是 位 于 点 x= § H Dirac delta 函数 。 

上 述 的 函数 GOG, H 叫做 微分 算 子 王 的 Green 函数 〈Courant and Hilbert，1970) 。Green 
函数 对 于 线性 微分 算 子 的 作用 类 似 于 一 个 矩阵 的 逆 矩 阵 对 该 矩阵 方程 的 作用 。 

S p(x) 表 示 一 个 关于 xE RR 的 连续 或 者 分 段 连 续 的 函数 。 那 么 函数 


F(x) = fa G(x, EpE)dE (7.17) 


就 是 微分 方程 
LF(x) = p(x) (7. 18) 
的 解 ， 其 中 G(x,&) 是 线性 微分 算 子 工 的 Green 函数 。 
为 了 证 明 FOO Ask (7. 18) 的 解 ， 我 们 将 微分 算 子 工 应 用 于 式 (7.17) 的 两 端 ， 可 得 


LF(x) = Lf G(x,E) gE dE) = | LG, Ep) dE (7.19) 


微分 算 子 工 将 站 视 为 常量 ， 它 作用 于 CO. 时 仅 将 其 视 为 x 的 函数 。 将 式 (7. 16) 代 人 式 
(7, 19)， 有 


LF(x) = | d(x — Epl) dE 
最 后 ， 利 用 Dirac Delta 函数 的 筛选 性 质 ， 可 得 

I, GE BCX EdE) = g(x) 
.这 样 就 得 到 了 如 式 (7. 18) 所 描述 的 LF(x) 二 g(x)。 


第 7 章 正则 化 理论 . 203 


正则 化 问题 的 解 
回 到 当前 的 问题 ， 下 面 我 们 来 解 Euler- 拉 格 朗 日 微分 方程 ， 即 式 (7. 14) 。 仿 
L = DD (7. 20) 
和 
p = + >) ld, — FO — x). (7.21) 


那么 根据 式 (7.17)， 有 
Ra =| GGx [y Ddi = FDE- x) dé 


N 
HE -FADS | GO BOE — x) dE 


上 式 第 二 行 交 换 了 积分 与 求 和 的 次 序 。 最 后 ， 利 用 Dirac Delta 函数 的 筛选 性 质 ， 可 以 得 到 
Euler- 拉 格 朗 日 微分 方程 (7. 14) 的 解 如 下 : 


FOD = + Da; — FO) IGG x) (7. 22) 


ZR C7. 22) 说 明正 则 化 问题 的 最 小 化 解 F(x) 是 N 个 Green 函数 的 线性 到 加 。x% 代表 扩展 中 
心 ， 权 值 [di Fx) 1/A 代表 展开 系数 。 换 句 话 说， 正则 化 问题 的 解 在 光滑 函数 的 空间 的 一 个 
N 维 子 空间 上 ， 以 研一 1,2,… ,NN 为 中 心 的 一 组 Green 函数 (G(x,x;)} 组 成 了 该 子 空 间 的 基 
(Poggio and Girosi，1990a) 。 注 意 式 (7. 22) 中 ， 展 开 系 数 具 有 如 下 性 质 : 

。 与 系统 的 估计 误差 (定义 为 应 有 输出 d; 和 相应 的 网 络 实际 计算 输出 下 (x;) 之 差 ) BHR 


性 关系 。 
。 与 正则 化 参数 4 成 反比 。 
确定 展开 系数 
下 面 将 要 解决 的 问题 是 如 何 确定 式 (7. 22) 中 的 展开 系数 。 令 
wi = + [di — F(x], i= 1 2， N (7. 23) 
则 正则 化 问题 的 最 小 化 的 解 式 (7. 22) 可 以 改写 成 如 下 形式 : 
F,(x) = > wGcx,x;,) (7. 24) 
HAE x G=, 2, --, N) 上 计算 式 (7. 24) 的 值 ， 可 得 
F(x) = J wG), j= 1,2,,N (7. 25) 
现在 我 们 引入 如 下 定义 : 
F, = CF, (x,) Fy Ox.) os Fy (xu) J C7. 26) 
d = [di sd; seod] (7. 27) 
G(X 5%) CGO) … G(x ,XN) 
G _ Gx) GO ox) ose CC sxn? (7. 28) 
G(xXN +X) G(x X2) ver 人 CCXN Xn) 
w= [vw 9 Wat swn] (7. 29) 


RERO. 23) 和 式 (7. 25) 可 分 别 写 成 矩阵 形式 : 
w= dR) 《7.30) 
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和 
F, = Gw (7. 31) 
消去 式 (7. 30) 和 式 (7. 31) 中 的 F,， 重 新 调整 项 可 得 
(G+ADw=d (7. 32) 


其 中 I 是 一 个 NXN BABE, EE G 称 为 Green HE, 
AC. 20) 所 定义 的 线性 微分 算 子 工 是 自 伴 的 ， 它 的 伴随 算 子 等 于 它 自身 。 因 此 ， 与 其 相关 
的 Green 函数 Gx x EMH RH, MAH i. 7 都 有 
G(x, +x) = G(x; ,X;) (7. 33) 
式 (7. 33) #289 Green KA GH 的 两 个 自 变 量 x 和 & 的 位 置 是 可 以 互 换 的 而 不 影响 它 的 
值 。 等 价 地 ， 式 (7. 28) 所 定义 的 Green 矩阵 G Bx tee, B 
G’=G (7. 34) 
现在 我 们 回顾 一 下 插值 定理 ， 第 5 章 利 用 插值 矩阵 O 对 定理 进行 描述 。 我 们 首先 注意 到 
Green 矩阵 G 在 正则 化 理论 中 所 起 的 作用 与 插值 矩阵 O E RBF 插值 理论 中 所 起 的 作用 相同 。 
它们 都 是 NXN 阶 的 对 称 阵 。 因 此 ， 我 们 可 以 说 ， 对 于 某 类 Green 函数 ， 只 要 所 提供 的 数据 
FAX ,Xz，… ,Xn 是 互 不 相同 的 ， 则 Green 矩阵 就 是 正定 的 。 满 足 Micchelli 定理 的 Green MA 
插 履 多 二 次 了 泡 数 和 高 斯 旺 数 ， 但 是 没有 多 二 次 函数 。 实 际 上 ， 我 们 总 是 将 选 得 足够 大 ， 使 得 
G41 是 正定 的 ， 从 而 是 可 道 的 。 这 样式 (7. 32) 所 表示 的 线性 方程 组 就 具有 唯一 解 (Poggio 
and Girosi, 1990a); 
w= (G+AD"'d (7. 35) 
因此 ， 只 要 选 定 了 微分 算 子 D， 从 而 确定 了 相应 的 Green BRM G(x; ,x;) ,i 一 1,2,…,N, 我 
们 就 可 以 通过 计算 式 (7. 35) 得 到 与 某 一 特定 期 望 输出 向 量 8 以 及 合适 的 正则 化 参数 值 * 相对 应 
的 权 值 向 量 w。 
总 之 ， 我 们 可 以 说 正则 化 问题 的 解 可 以 由 以 下 展开 式 给 出 ， 


F(X) 一 >) wGx,x,) (7. 36) 

相应 地 ， 我 们 可 以 作出 如 下 三 条 论断 ， 

1. 最 小 化 式 (7.4) 中 的 正则 化 代价 函数 ECF) 的 逼近 函数 F(xX)， 由 一 系列 Green 函数 的 线 

性 加 权 组 合 而 成 ， 其 中 每 一 个 Green 函数 都 仅 依 赖 于 一 个 稳定 因子 D。 

. 在 展开 式 中 所 用 到 的 Green 函数 的 个 数 与 训练 过 程 中 所 用 的 样本 数据 点 的 个 数 相 同 。 
. 展开 式 中 相应 的 N 个 权 值 由 式 (7.23) 中 的 训练 样本 dE 和 正则 化 参数 的 形式 

如 果 所 选 的 稳定 因子 D 具有 平移 不 变性 ， 则 以 xz; 为 中 心 的 Green 函数 G(x,x;) 只 取决 于 自 
变量 z Ala, 之 差 ; 即 


w N 


G(x,x;) = G(x — x;) (7. 37) 
如 果 稳 定 因 子 D 是 平移 不 变 和 旋转 不 变 的 ， 则 Green 函数 GCCx,x) 只 取决 于 向 量 x 一 x 的 


欧 几 里 得 范 数 ， 表 示 为 
G(x,x;) = GC || x— x ||) (7. 38) 


在 这 些 条 件 下 ，Green 函数 一 定 是 径 向 基 函 数 。 此 时 ， 式 (7. 36) 的 正则 化 问题 的 解 可 表示 
为 如 下 形式 : 


F(x) = S)wGC|lx—x; Il) (7. 39) 
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ACT. 39) 所 描述 的 解构 造 一 个 依赖 于 已 知 数据 点 的 欧 几 里 得 距离 度量 的 线性 函数 空间 。 

式 (7. 39) 所 描述 的 解 叫做 严格 插值 解 ， 因 为 所 有 NN 个 已 知 训练 数据 点 都 被 用 于 生成 插值 
函数 (x)。 但 是 ， 值 得 注意 的 是 式 (7. 39) 与 式 (5. 11) 所 表示 的 解 有 根本 不 同 。 式 (7. 39) 的 解 
被 式 (7. 35) 给 出 的 权重 向 量 w 的 定义 所 正则 化 。 只 有 当 我 们 将 正则 化 参数 1 设 为 0 时， 这 两 个 
解 才 是 一 样 的 。 

多 元 高 斯 函数 

Green 函数 G(x,x;) 的 相应 的 线性 微分 算 子 D 是 平移 不 变 和 旋转 不 变 的 并 且 它 满足 式 

(7. 38) 的 条 件 ， 此 时 Green 函数 具有 重要 实际 意义 。 这 类 Green 函数 的 一 个 例子 是 多 元 高 斯 函 





Gx.) = exp(— 54 Il xx II’) (7. 40) 


其 中 x 表示 函数 的 中 心 ， 而 o; 则 表示 它 的 宽度 。 与 式 (7. 40) 所 示 Green 函数 相对 应 的 自 伴 随 
AF L=DD 由 下 式 给 出 : 


æ 











L= JC D'e, V” (7.41) 
其 中 
2n 
= Gi 
an = oe (7. 42) 
而 Ym 是 mo 维 多 重 拉 普 拉 斯 算 子 . 
0 gnp 
V? ax toz 十 T Sr (7. 43) 


因为 式 (7. 4D L 的 项 数 允 许 到 无 穷 大 ， 所 以 从 标准 意义 上 说 工 并 不 是 一 个 微分 算 子 。 
因此 ， 我 们 将 式 (7. 41) 中 的 工 称 为 伪 微 分 算 子 。 
HEEL L=DD, HAC. 41) 可 以 推导 出 算 子 DMD: 








D= 1/2 oO | 9 |... 9 y ve — Ü 7. 44 
之 人 Ox, OT? | + OF m, ) 2 Əri Ox} OL, € ) 
和 
~ 3 Ə Ə y 3" 
D = —\y 1/2 { | wa. 志 = —1)" Me -一 一 7.45 
> € Va Ea | OL, DT m, ) A "a Əxi Ər drh, € ) 


因此 通过 使 用 所 有 可 能 偏 导数 在 内 的 稳定 因子 ， 可 以 得 到 式 (7. 39) 形 式 的 正则 解 。 
式 (7.40) 至 (7.42) 代入 式 (7.16) 且 令 E 为 x;:， 则 有 


` — n o” 2n — 1 — 2 一 一 
2 1) rp exp( zg lx x; || ) =a x;) (7. 46) 


利用 式 (7. 40) 定 义 的 Green 函数 GCx,x) 的 特殊 形式 ， 可 以 将 式 (7. 36) 给 出 的 正则 化 解 写 成 多 
元 高 斯 函数 的 线性 全 加 形式 ， 如 下 所 示 : 
F,(x) = >) wiexp(— z5 ix x I?) (7.47) 
其 中 线性 权 值 w; 由 式 (7. 23) 定 义 。 
在 式 (7. 47) p, BURR F(x) 的 各 高 斯 项 的 方差 是 不 同 的 。 为 简化 起 见 ， 通 常 认 
为 在 F(x) 中 对 所 有 的 i 都 有 o; 二 so。 尽 管 这 样 设计 的 RBF 网 络 是 受到 一 定 限制 的 一 种 ， 但 其 仍 
不 失 为 一 个 通用 逼近 器 (Park and Sandberg.1991). 


7.4 正则 化 网 络 
式 (7. 36) 给 出 的 正则 化 逼近 函数 已 (x) 关 于 中 心 在 x 的 Green 函数 G(x,x) 的 展开 形式 ， 
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体现 了 如 图 7. 2 所 示 网 络 结构 的 一 个 实现 方法 。 基 于 明显 的 原因 ， 这 种 网 络 结构 被 称 为 正则 化 
网 络 (Poggio and Girosi，1990a) 。 该 网 络 包括 三 层 。 第 一 层 是 由 输入 节点 组 成 的 ， 输 入 节点 
数目 等 于 输入 向 量 z 的 维 数 m。( 即 问题 的 独立 变量 数 )。 第 二 层 是 隐藏 层 ， 它 是 由 直接 与 所 有 
输入 节点 相连 的 非 线性 单元 组 成 的 。 一 个 隐藏 单元 对 应 一 个 数据 点 环宇 一 1,2,…,N ， 其 中 人 
表示 训练 样本 的 长 度 。 每 个 隐 蕊 单元 的 激活 函数 由 Green 函数 定义 。 因 此 第 ; 个 隐藏 单元 的 输 
出 是 CCx,x)。 输 出 层 仅 包含 一 个 线性 单元 ， 它 与 所 有 隐藏 单元 相连 。 这 里 所 谓 的 “线性 ” 指 
的 是 网 络 的 输出 是 隐藏 单元 输出 的 线性 加 权 和 。 输 出 层 的 权 值 就 是 未 知 的 展开 系数 ， 如 式 
(7. 23) 所 示 ， 它 是 由 Green 函数 G(x,x;) 和 正则 化 参数 4 决定。 图 7. 2 描绘 一 个 单 输出 的 正则 
化 网 络 的 结构 图 。 显 然 ， 我 们 可 以 将 其 推广 为 包括 任意 期 望 输出 数目 的 正则 化 网 络 。 





。 输出 
F(x) 





输入 向 量 x < 











输入 层 NA¢SGreen de eh 输出 层 
数 的 隐藏 层 


图 7.2 正则 化 网 络 


图 7. 2 所 示 的 正则 化 网 络 假设 Green 函数 G(x,x;) 对 所 有 的 i 都 是 正定 的 。 假 设 上 述 条 件 
成 立 ， 例 如 ，Green 函数 G(x,x;) 具 有 式 (7. 40) 所 示 的 高 斯 形式 ， 则 由 该 网 络 所 得 到 的 解 在 泛 
函 多 (FF) 最 小 化 的 意义 下 将 是 一 个 “最 佳 ”的 内 揪 解 。 而 且 ， 由 逼近 理论 的 观点 ， 正 则 化 网 络 
具有 如 下 三 个 如 图 7. 2 所 示 的 径 向 基 函 数 网 络 希望 的 性 质 (Poggio and Girosi, 1990a); 
Ci) 正则 化 网 络 是 一 个 通用 逼近 器 ， 只 要 有 足够 多 的 隐藏 单元 ， 它 可 以 以 任意 精度 逼近 
定义 在 R™“ 的 紧 子 集 上 的 任何 多 元 连续 函数 。 
Ci) 由 于 正则 化 理论 导出 的 逼近 格式 的 未 知 系 数 是 线性 的 ， 这 样 该 网 络 具 有 最 佳 和 逼近 性 
能 。 这 说 明 给 定 一 个 未 知 的 非 线 性 函数 A， 总 可 选择 一 组 系数 使 得 它 对 了 的 遏 近 优 
于 所 有 其 他 可 能 选择 。 由 正则 化 网 络 求 得 的 解 是 最 佳 的 。 


7.5 广义 径 向 基 函 数 网 络 


由 于 输入 向 量 x 与 Green MA G(x,x,) (i 二 1,2,…,N) 之 间 的 一 一 对 应 的 关系 ， 有 时 候 如 
果 N 太 大 了 ， 实 现 它 的 计算 量 将 大 得 惊人 。 特 别 是 在 计算 网 络 的 线性 权 值 〈 即 式 (7. 36) 中 的 
展开 系数 ) 时 ， 要 求 计 算 一 个 NXN 阶 和 矩阵 的 道 ， 其 计算 量 按 N 的 多 项 式 增 长 KAK N. 
另外 矩阵 越 大 ， 其 病态 的 可 能 性 越 高 ;一 个 矩阵 的 条 件数 被 定义 为 该 矩阵 的 最 大 特征 值 与 其 最 
小 特征 值 的 比值 。 要 克服 这 些 计算 上 的 困难 ， 我 们 通常 要 降低 神经 网 络 的 复杂 度 ， 或 者 加 大 正 
则 化 参数 值 。 

如 图 7. 3 所 描绘 的 降低 复杂 度 的 RBF 网 络 ， 在 一 个 较 低 维 数 的 空间 中 求 一 个 次 优 解 ， 以 
此 来 逼近 式 (7. 36) 所 给 出 的 正则 化 解 。 这 可 以 通过 变 分 问题 中 通称 Galerkin 方法 的 标准 技术 
实现 。 根 据 这 个 技术 ， 近 似 解 FF*(x) 将 在 一 个 有 限 基 上 进行 扩展 ， 表 示 为 
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F* (x) = Swe Got) (7. 48) 

其 中 (p(x. t) (¢ = 1,2, } 是 一 组 新 的 基 函 数 ， 不 失 一 般 性 我 们 假设 它们 线性 独立 《Pog- 
gio and Girosi，1990a) 。 典 型 情况 下 这 组 新 的 基 函 数 的 个 数 小 于 输入 数据 点 的 个 数 〈 即 mm < 
gxt) = GCi|x—t, ||), i = 1,2, ,mi (7. 49) 








输入 向 量 x 








输入 层 ml 个 径 向 基 函 输出 层 
数 的 隐藏 层 


图 7.3 降低 复杂 度 的 径 向 基 范 数 网 络 
基 函 数 的 这 个 特定 选择 是 唯一 的 选择 ， 只 有 当 mN, H 
ti = Xi， zi 一 1 2 
时 ， 其 解 与 式 (7. 39) 的 正确 解 一 致 。 因 此 将 式 (7. 49) 代 入 式 (7. 48) 中 ， 重 新 定义 下” (为 
FEO = SwGG,t) = auwGClx 一 tl (7. 50) 


对 于 给 定 的 逼近 函数 FF" (x) 的 〈7. 50) 的 展开 形式 ， 我 们 将 要 解决 的 问题 是 确定 一 组 新 的 
PUA (wid, ， 使 新 的 代价 泛 函 &(CF ) 最 小 化 ， 新 代价 泛 函 由 下 式 定义 : 


N m 2 
EFN = Dad Dwat >) +2 || DF" Il? (7.51) 
i=] j=l 
式 (7. 51) 右 边 第 一 项 可 以 写成 欧 几 里 得 范 数 平方 上 d— Gw], EE 

d = [ai sdz; sdn] (7.52) 

G(x, ,ti) G(x, »t,) = G(X rt, ) 

G(x, >t) G(x, st, ) ore G(X: stn ) i 

= . . o (7.53) 

G(xXN st) CCXN st.) ove GC xn rt, 
W = [wwe Wm, |” (7.54) 


与 前 面 一 样 ， 期 望 响 应 向 量 4 是 NAW. (AE. Green 函数 的 矩阵 G 和 权 值 向 量 w 却 有 不 同 
维 数 ;， RARE G 现在 是 NXm, 阶 的 ， 所 以 不 再 是 对 称 的 ， 而 向 量 w 是 mi:X1 的 。 由 式 (7. SOR 
们 注意 到 ， 近 似 函 数 F 是 由 稳定 因子 D 决定 的 Green 函数 的 线性 组 合 。 因此， 可 以 将 式 
(7. 51) 右 边 第 二 项 写成 : 


[| DF* | 2 =(DF* »DF* Py = [Z wea to Dw], 
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=[ X wean), >,] = 3) ww Gt) = ww (7.55) 


其 中 第 二 个 和 第 三 个 相等 项 分 别 利 用 伴随 算 子 的 定义 和 式 (7， 16). FARE Go 是 一 个 m Xm B 
的 对 称 阵 ， 定 义 为 


G(t, ,t,) Gt, ,t,) eee Gt ot, ) 
G(t, sti) GCt, st, ) see Gt, rt, ) 

Go 一 . . . C7. 56) 
GUty th) G( ot) GCty stn, ) 


以 权 值 向 量 w 为 变量 求 式 (7. 51) 的 最 小 值 ， 可 以 得 到 以 下 结果 (参看 习题 7. 4) : 
(GTG+AGo) W = G'd 
SR PRA BW, 192. 
W = (G’G+AG,)'G'd (7. 57) 
当 正 则 化 参数 4 趋 近 零 时 ， 权 值 向 量 交 趋 于 一 个 超 定 的 最 小 二 乘 数据 - 拟 合 问题 (因为 
m<N) 的 伪 逆 《最 小 范 数 ) 解 ， 表 示 为 : 


w= Gd, A=0 (7. 58) 
其 中 Gt 是 矩阵 G 的 伪 道 (colub and Van Loan, 1996); 即 
Gt = (GTG) GT (7.59) 


加 权 范 数 
式 (7. 50) 中 的 范 数 通常 指 的 是 欧 几 里 得 范 数 。 然 而 ， 当 输入 向 量 x 的 分 量 属于 不 同 的 类 
时 ， 将 其 视 为 一 般 的 加 权 范 数 会 更 合理 ， 加 权 范 数 的 平方 形式 由 
|| x || 2 = (Cx) (Cx) = XTCICx (7. 60) 
定义 ， 其 中 C 是 一 个 m Xm mHE, m 是 输入 向 量 x HAR. 
利用 加 权 范 数 的 定义 ， 我 们 可 以 将 式 (7. 50) 中 正则 化 问题 的 近似 解 写 成 如 下 更 一 般 的 形式 
(Lowe, 1989; Poggio and Girosi, 1990a); 


F' (x) = Dwd xt leo) (7. 61) 


引入 加 权 范 数 可 以 用 两 种 方式 解释 。 我 们 可 以 简单 地 将 其 视 为 对 原 给 输入 空间 做 一 个 仿 于 
变换 。 原 则 上 这 种 变换 并 不 会 降低 原来 不 加 权 的 结果 ， 因 为 原来 不 加 权 的 范 数 实际 上 对 应 于 
个 单位 矩阵 的 加 权 范 数 。 另 一 方面 ， 加 权 范 数 可 以 看 作 直接 从 式 (7.44) 定 义 的 m 维 Laplace 
伪 微 分 算 子 D 的 少许 推广 。 使 用 加 权 范 数 的 合理 性 在 高 斯 径 向 基 函 数 背景 下 可 以 解释 如 下 。 
一 个 以 为 中 心 和 具有 范 数 加 权 和 矩阵 C 的 高 斯 径 向 基 函 数 G(x 一 t; | OAT 


GC || x— t || c =exp[— (x — t) CCX t) ] = exp| ; (xt) E at) | (7. 62) 
Ht et ED GE 








ls oer 
7> CC 


式 (7.62) 中 的 广义 多 维 高 斯 分 布 有 一 个 指数 等 于 Mahalanobis 距离 ， 见 引言 章节 中 的 式 
(27)。 因 此 ， 由 式 (7. 62) 所 定义 的 核 称 为 Mahalanobis 核 。 这 个 核 已 在 第 6 章 的 习题 6. 10 中 
有 所 讨论 。 

式 (7. 51) 中 逼近 问题 的 解 为 具有 如 图 7. 3 结构 的 广义 径 向 基 洒 数 网 络 提供 了 一 个 框架 。 在 
这 种 网 络 中 ， 输 出 单元 上 有 一 个 偏 置 ( 即 独立 于 数据 的 变量 )。 要 做 到 这 一 点 可 以 简单 地 将 输 
出 层 的 一 个 线性 权 值 置 为 偏 置 值 ， 同 时 将 与 该 权 值 相对 应 的 径 向 基 函 数 视 为 一 个 等 于 十 1 的 
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常量 。 

从 结构 上 看 ， 图 7. 3 所 示 的 广义 RBF 网 络 与 图 7.2 所 示 的 正则 化 RBF 网 络 相 似 。 但 它们 
在 以 下 两 个 重要 的 方面 有 所 不 同 : 

1. 图 7. 3 所 示 的 广义 RBF 网 络 隐藏 层 的 节点 数 为 m, EK mi 总 是 小 于 用 于 训练 的 样本 
数 N。 另 一 方面 ， 图 7.2 所 示 的 正则 化 RBF 网 络 的 隐藏 单元 数 恰 为 N。 

2. 在 图 7. 3 的 广义 RBF 网 络 中 ， 与 输出 层 相连 的 线性 权 值 向 量 ， 以 及 与 隐藏 层 相连 的 径 
向 基 函 数 的 中 心 和 范 数 加 权 和 矩阵 ， 均 为 待 学 习 的 未 知 参数 。 而 图 7. 2 的 正则 化 RBF 网 络 隐藏 
层 的 激活 函数 是 已 知 的 ， 它 定义 为 一 组 以 训练 样本 点 为 中 心 的 Green 函数 ;输出 层 的 权 值 向 量 
是 网 络 的 唯一 未 知 参数 。 


7.6 再 论 正则 化 最 小 二 乘 估计 


我 们 一 开始 在 第 2 章 中 学 习 了 最 小 二 乘 估计 。 然 后 在 第 5 章 中 使 用 它 计算 一 个 次 最 优 径 向 
基 函 数 网 络 的 输出 层 。 在 本 节 ， 我 们 再 次 讨论 这 个 相对 简单 但 很 有 效 的 估计 方法 。 这 里 ， 我 们 
注意 两 点 ; 第 一 ， 我 们 要 指出 式 (7. 57) 的 公式 包括 正则 化 最 小 二 乘 佑 计 ， 且 后 者 是 前 者 的 一 个 
特例 。 第 二 ， 我 们 要 指出 ， 与 其 他 核 方 法 一 样 ， 正 则 化 最 小 二 乘 估计 受到 表示 理论 的 控制 。 
WERD REHAR. 57) 的 一 个 特例 


对 于 给 定 的 训练 样本 {x;,q;}) 六 ，， 最 小 二 乘 估 计 的 正则 化 代价 函数 由 下 式 定义 ( 见 第 2 章 ): 
Elw) = 二 Dw + || w ||? (7. 63) 


其 中 权 值 向 量 w 通过 训练 步 长 确定 ， 是 一 个 正则 化 人 参数。 逼近 此 式 和 式 (7.4) 中 的 代价 函数 ， 
我 们 可 以 发 现 正 则 化 项 以 w 的 形式 简单 地 定义 : 
|| DF ||? = || wl? = ww 
根据 上 式 ， 我 们 可 以 立即 设立 式 (7, SOEKI RERE Go 为 单位 阵 。 相 应 地 ， 式 (7. 57) 之 
前 的 项 缩减 为 : 
(G?'G+AD W = G'd 
接 下 来 ， 注 意 到 因为 最 小 二 乘 估计 是 线性 的 ， 且 缺失 隐藏 层 ， 我 们 可 以 把 式 (7. 53) 中 的 剩 
余 矩 阵 G 的 转 置 表示 为 : 
GT = [x xs tty Xn | (7. 64) 
然后 ， 对 G7 使 用 此 表达 式 ， 对 关于 权 值 向 量 久 的 式 (7. 57) 中 的 正则 化 解 的 预期 响应 4 使 用 式 
(7. 52) 中 的 表达 式 ， 我 们 得 到 (经 过 一 些 代数 操作 ): 


w= (Ra +AD Hro (7.65) 
其 中 
N ON 
Rn = Dox x) 
且 
N 
la: 一 > xd: 


式 (7. 65) 是 在 式 (2. 29) 中 定义 的 用 于 最 大 后 验 (MAP) 估计 的 公式 的 重复 。 如 前 所 述 ， 些 式 
同样 可 以 用 于 正则 化 最 小 二 乘 估 计 。 

对 相关 矩阵 Re 和 互相 关 向 量 re 使 用 此 表达 式 ， 我 们 以 训练 样本 (x, dije ABABA 
式 (7. 65) 中 的 公式 : 
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w= (XXD Xd (7. 66) 
其 中 处 是 输入 数据 和 矩阵: 
Xi X12 Zim 
x= | Tp O TM (7. 67) 
Eni ZN2 “* TIM 


其 中 下 标 N 是 训练 样本 的 个 数 ， 下 标 M 是 权 值 向 量 久 的 维 数 。 向 量 d 是 预期 响应 向 量 ， 由 式 
(7. 52) 定 义 ; 在 此 ， 为 了 方便 起 见 ， 我 们 重新 写作 : 
d 一 Ld, sdz steady |? 
把 最 小 二 乘 估计 看 作 表 示 定 理 的 形式 
接 下 来 ， 把 最 小 二 乘 估计 看 成 一 个 “ 核 机 器 >”， 我 们 把 它 的 核 表 示 成 内 积 的 形式 : 


kCX,x;) = {X5X;? 一 x'x,, L = 1,2; N C7. 68) 
FRIAS 6 章 讨论 的 表示 定理 ， 可 以 通过 如 下 的 正则 化 最 小 二 乘 估计 表示 逼近 函数 ， 
F(x) 一 Soak (x, x,) (7. 69) 


其 中 表示 系数 fash HURREE {x;，4di} 六 ;所 唯一 地 确定 ; 问题 是 如 何 确 定 ? 
要 解决 这 个 问题 ， 首 先 使 用 如 下 等 式 : 
XT(XXT +A) d = (XTX + ål)’ Xd (7.70) 
其 中 X 是 一 个 NXM 的 矩阵 ，d 是 一 个 NX1 的 预期 响应 向 量 ， 它 是 正则 化 参数 ，Iv 和 Iw 分 
别 是 N 维和 M 维 的 单位 矩阵 。 其 中 M 是 权 向 量 w 的 维 数 。 对 于 式 (7. 70) 中 矩阵 等 式 的 证 明 可 
见习 题 7. 11。 此 等 式 的 右 端 被 认为 是 最 优化 权 值 向 量 交 的 公式 ;， 见 式 (7. 66) 。 使 用 式 (7. 70) 中 
的 等 式 ， 我 们 可 以 通过 如 下 的 正则 化 最 小 二 乘 估计 ， 以 权 值 向 量 和 输入 向 量 x 的 形式 来 表示 需 
UT pRB 
F, (x) = x? W = x? X (XX + Aly) dd (7. 71) 
此 式 可 由 内 积 的 形式 表示 : 
F(x) = kT (x)a = a’k(x) (7. 72) 
此 式 是 式 (7. 69) 的 表示 理论 的 矩阵 形式 。 由 此 得 出 : 
1. 核 的 行 向 量 以 输入 向 量 x 和 数据 矩阵 X 的 形式 定义 ， 如 下 所 示 
kT (x) = [k (x, x1) ROK Xa) ot RCs XN) | = xX" = (Xx) (7.73) 
此 向 量 是 一 个 1 RUN 的 行 向 量 。 
2. 表示 系数 向 量 a 由 估计 算 子 中 的 NXN HRM Gram 矩阵 KK、 正 则 化 参数 和 预期 响 
应 向 量 d 的 形式 定义 ， 如 下 : 


a = [a as stan d = (K+ Aly) d C7. 74) 
其 中 
xix; x? x, vee x! xn 
x? Ix, oc xix 
K=xx = | PP om (7.75) 
NX XNX. 0 XWXw 


描述 正则 最 小 二 乘 估计 的 两 个 等 价 方式 
由 本 章 中 所 谈论 的 内 容 ， 我 们 发 现 ， 事 实 上 有 两 种 描述 由 正则 化 最 小 二 乘 估计 实现 的 有 逼近 
函数 F; (x): . 
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L 式 (7. 71) 中 的 公式 ， 由 给 定 输入 向 量 x 的 权 值 向 量 WW 所 定义 。 基 本 上 说 ， 这 个 公式 可 以 
追 潮 到 第 2 章 中 讨论 过 的 用 于 最 小 二 乘 估计 的 规范 等 式 。 

2. 式 (7. 72) 中 的 公式 ， 由 估计 算 子 的 核 的 形式 定义 。 第 二 个 公式 来 自 于 第 6 章 中 的 表示 
理论 。 这 个 公式 的 重要 实质 在 于 其 不 需要 计算 RLS 算法 中 的 权 值 向 量 。 这 也 是 第 6 章 中 所 讨 
论 的 核 方法 的 本 质 。 

对 正则 化 最 小 二 乘 估计 的 第 一 个 观点 ， 以 规范 等 式 的 形式 给 出 ， 在 统计 学 中 是 常见 的 。 然 
而 ， 以 表示 理论 〈 在 核 学 习 中 常见 ) 给 出 的 第 二 个 等 式 是 新 的 。 


7.7 对 正则 化 的 附加 要 点 


基于 高 斯 的 径 向 基 范 数 网 络 的 一 个 属性 就 是 其 本 身 是 Tikhonov 正则 化 理论 的 严格 应 用 。 
这 在 7.4 节 和 7.5 节 中 已 证 明 。 而 如 7.6 节 所 示 ， 同 样 的 表示 可 适用 于 最 小 二 乘 估计 。 

本 节 的 目标 是 把 最 小 二 乘 估 计 中 所 学 的 知识 ， 延 伸 到 使 用 Tikhonov 正则 化 理论 较为 困难 
的 情况 。 





回归 
式 (7. 63) 可 以 重 写成 如 下 形式 : 
Bw) = Fd, wx) + Sali wil? (7. 76) 
i=l 
正则 化 经 验 风险 ” 正则 化 项 
代价 函数 


从 回归 的 角度 上 看 ， 项 二 | w 1 * 有 一 个 特定 的 直观 的 作用 。 从 几何 上 说 ， 最 小 化 代价 函数 


ZB(w) 过 程 中 ， 包 含 正则 化 项 去 Iwl? 有 利于 找到 带 有 好 的 逼近 属性 的 平坦 的 函数 。 事 实 上 ， 
这 也 是 4. 14 节 中 所 提 到 的 目标 ， 我 们 提出 最 小 化 代价 函数 : 
Ew) = 4D di — Paw + Fa |] wll? 





v nn ane 
ie ese 经 验 风 险 正则 化 项 
此 最 小 化 代价 函数 可 作为 一 个 用 于 函数 逼近 的 多 层 感知 器 的 正则 化 的 可 行 方法 。 此 方法 的 缺 
点 是 在 数学 上 很 难 把 Tikhonov 正则 化 理论 应 用 于 多 层 感 知 器 。 不 像 径 向 基 函 数 网 络 ， 儿 层 感知 
器 的 可 调整 的 突 触 权 值 在 隐藏 层 和 输出 层 中 分 布 。 从 实用 的 角度 上 看 ， 使 用 正则 化 项 到 | wl? 
是 一 个 理想 的 选择 。 
最 大 似 然 估 计 


从 第 2 章 处 理 的 最 小 二 乘 方法 和 贝 叶 斯 估计 中 ， 我 们 发 现 最 大 化 后 验 参 数 估计 的 目标 函 
数 ， 作 用 于 高 斯 环境 ， 可 以 由 如 下 公式 来 表示 ( 见 式 (2. 22) 和 式 (2. 28)): 





Low 一 一 二 2 (Cd 一 wx 一 到 ww (7.77) 
i=l 

对 数 对 数 似 然 比较 对 数 优先 的 

较 晚 的 


因此 ， 我 们 可 以 把 项 于 ww l? 看 作 一 个 关于 极 大 后 验 参数 估计 中 潜在 结构 的 先 验 信息 。 


式 (7.76) 和 式 (7. 77) 这 两 个 等 式 ， 分别 定义 了 gw) 和 上 (w)， 有 相同 的 数学 结构 ， 除 了 对 数 后 
验 概率 工 (w) 是 正则 化 代价 函数 8Cw) 的 负数 。 因 此 ， 正 则 化 项 和 先 验 信息 项 在 最 小 二 乘 估计 ， 
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或 高 斯 环境 下 的 最 大 似 然 估 计 中 起 到 相同 的 作用 。 
在 最 小 二 乘 估计 中 推广 此 观察 ， 我 们 可 以 推导 出 以 正则 化 极 大 似 然 估 计 作 为 目标 函数 的 佑 
计 ， 其 表示 式 如 下 : 


Lw) = logl(w) — $a || wl? 





vO Y 
正则 化 对 数 似 正则 化 项 
对 数 似 然 概 率 (惩罚 项 ) 


其 中 ，w 是 等 优化 的 参数 向 量 。 基 本 上 说 ， 当 很 难 获得 一 个 用 于 估计 未 知 参 数 向 量 w 的 最 大 似 
然 估 计算 法 的 先 验 知识 时 ， 从 似 然 概率 函数 Kw) 中 减 去 惩 ENNA wl? 可 能 会 对 稳定 最 大 似 
然 估计 过 程 提供 一 个 理想 的 选择 。 

7.8 正则 化 参数 估计 


正则 化 参数 4 在 径 向 基 范 数 网 络 ， 最 小 二 乘 估 计 和 支持 向 量 机 的 正则 化 理论 中 起 着 核心 的 
作用 。 为 了 更 好 利用 这 个 理论 ， 我 们 需要 一 个 估计 的 相当 于 原理 性 的 方法 。 

要 形成 我 们 的 思想 ， 先 考虑 一 个 非 线性 回归 问题 ， 它 由 一 个 模型 描述 ， 其 中 与 第 i 时间 步 
的 输入 向 量 x 相对 应 的 可 观测 输出 y, 定义 为 ， 





d; = f(x) +e i= 1,2, N (7. 78) 
此 处 fix) ER OLR”. a 是 一 个 均值 为 零 和 方差 如 下 的 白 噪声 过 程 的 采样 。 即 
o's 4 k=i 
ELee,] = 0， Sil (7.79) 


问题 是 在 给 定 一 组 训练 样本 (x vw LMA. BERRA MHA BRK f(x;)。 
令 F(x) 为 f(x) 相 对 于 某 个 正则 化 参数 X 的 正则 化 估计 。 即 F(x) 为 使 表示 非 线 性 回归 问 
题 的 Tikhonov Z K LAC. 4) 达到 最 小 的 最 小 化 函数 ， 


gF) = 4 D3 -FDF +È | DF% II? 
选择 一 个 合适 的 4 值 并 不 是 一 em masse. ERE ERNIE 情况 之 间 加 以 权衡 : 
由 上 DF(x) | ?项 来 度量 解 的 粗糙 度 。 
由 > La 一 FCx)] 项 玉 度 量 数据 的 失真 度 。 
这 一 节 的 主题 是 讨论 如 何 选择 好 的 正则 化 参数 4。 
均 方 误差 
今 RCO) 表示 模型 的 回归 函数 f(x) 和 表示 在 正则 化 参数 4 某 一 值 下 的 解 的 逼近 函数 F O 
之 间 在 整个 给 定 集合 上 的 均 方 误差 。 即 ; 
RO = EMEP — Ro} (7. 80) 
PAREA EEROR A fo. 
HEF, (x4) 表示 为 给 定 的 一 组 可 观察 值 的 线性 组 合 : 
Fx) = Dyan Dd (7. 81) 


用 等 价 的 矩阵 形式 写成 
F, = AQ)d (7. 82) 
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其 中 d 是 预期 响应 向 量 〈 即 回归 模型 中 的 响应 向 量 )， 
F, = CF, (x) ) 5 F, Cx, ) 0°) Fy Oxy) J? 


且 
ay aiz Qin 
a a = ž a 
AGO 一 | 5 8 人 (7. 83) 
ANni anm "| GQNN 


其 中 NXN 和 矩阵 AGC) 称 为 影响 矩阵 。 
用 上 述 的 矩阵 符号 ， 我 们 可 将 式 (7. 80) 重 新 写成 : 


1 2 1 
Ra) nif F, || N 








| f£-AQ)a |? (7. 84) 


其 中 NX1 的 向 量 f 为 : 
f = [Fx FR), Aan) 
我 们 可 以 进一步 将 式 (7. 78) 也 写成 矩阵 形式 : 
d=ft+e (7. 85) 
其 中 : 
Ee = Le: 9E2 ,EN | 


因此 ， 将 式 (7.85) 代 入 式 (7. 84) 中 并 展开 ， 可 得 
RO) =F | G— Ada) £— Ae ll? 














] > 1 (7. 86) 
=H | (I= ADE ||? — Ne ATA ADEE 5 | ACAe ||? 
其 中 I 是 一 个 NXN 的 单位 矩阵 。 求 ROAD) 的 期 望 值 ， 需 要 注意 下 述 几 点 ， 
1. 式 (7. 86) 的 右边 第 一 项 是 一 个 常数 ， 因 此 它 不 受 期 望 算 子 的 影响 。 
2. 由 式 (7. 86) 可 知 ， 第 二 项 的 期 望 为 零 。 
3. 标量 外 AC)sl| WARN: 
EL || Ae ||? ELET ATA) AQ E] 
=tr(E[e™AT(A AC €]) = Etres ATAA) | (7. 87) 
其 中 我 们 首先 用 到 了 标量 的 迹 等 于 标量 本 身 的 性 质 ， 然 后 交换 了 期 望 运 算 和 求 迹 运算 的 


次 序 。 
4. 接 下 来 我 们 利用 和 抢 阵 代数 中 的 如 下 规则 : 给 定 两 个 具有 相 容 维 数 的 矩阵 B 和 C，BC 的 
迹 等 于 CB 的 迹 。 令 B=sT，C=ATGOD)AG)s， 则 式 (7.87) 可 以 写成 等 价 形式 ， 





EL || ACADE || 2] 一 E{tr[A7GDJAC)gge7] = otr[AT(A) A (7. 88) 
上 式 中 的 最 后 一 行 根据 式 (7. 79) 可 得 。 最 后 注意 到 A7 (CA)AG) 的 迹 等 于 A? (4) 的 迹 ， 则 
EC || AWE || 7] = e trLA? CA) (7. 89) 
将 这 三 项 结果 结合 起 来 ，R(4) 期 望 值 可 表示 为 : 
—~lyyze 2 Č 2 
ER@I= NII AWE |? + ge a] (7. 90) 


但 是 ， 一 个 给 定数 据 集 的 均 方 误差 Ri) 在 实际 中 并 不 好 用 ， 因 为 式 (7. 90) H i R EHA R 
数 f(x) 的 知识 ， 它 是 有 待 重建 的 函数 。 我 们 引入 如 下 定义 作为 R(X) 的 估计 (Craven and Wah- 
ba, 1979); 


~ _ 1 2 (il 2 _o — 2 
Ra) = N | a— Aad ||? + tr[A (a) ] wuld A(A))? ] (7.91) 
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” 它 是 无 偏 估计， 因此 〈 按 照 导 出 式 (7. 90) 所 述 的 相似 过 程 ) 我 们 可 证 明 : 
FLRO)] = ELR@)] (7. 92) 
RUA, EIR) Ee) AAT LAE AEE A 的 一 个 好 的 选择 。 
广义 交叉 验证 | 

使 用 估计 RR(4) 的 一 个 缺陷 是 它 要 求知 道 噪声 的 方差 o2 。 在 实际 情况 中 ，o? 通常 是 未 知 的 。 
要 处 理 这 种 情况 ， 下 面 我 们 将 介绍 广义 交叉 验证 ， 它 最 早 是 由 Craven and Wahba(1979) 提 
出 的 。 

我 们 从 修改 通常 的 交叉 验证 的 留 一 形式 (在 第 4 章 描述 ) 开始 来 处 理 这 个 问题 。 具 体 地 
说 ， 令 FY (x) 为 使 泛 函 最 小 化 的 函数 ; 


Crosta (F) = E DEd; PF +4 | DF II? (7. 93) 
i=1 


























其 中 标准 误差 项 中 省 略 了 第 & 项 [d —F, (x) Jo 通过 留 出 这 一 项 ， 我 们 将 用 FE Oo 预报 缺损 
数据 点 d 的 能 力 来 衡量 参数 4 的 好 坏 。 因 此 ， 引 和 人 性 能 度量 : 


VOD = Hd ~ AP On] (7. 94) 
Vo (A) 仅 依赖 于 数据 点 本 身 。 这 样 4 的 普通 交叉 验证 估计 即 为 使 CA) 最 小 化 的 函数 (Wahba， 


1990). 

Fi(Cx) 的 一 个 有 用 的 性 质 是 如 果 用 预测 PO OR de 的 值 ， 使 用 数据 点 dis 
dddd yt dy 使 式 (7.4) 的 原始 Tikhonov ZREO, W F#8 xD MEPR H) 
解 。 对 于 每 一 个 输入 向 量 x， 该 性 质 使 8(F) 的 最 小 化 函数 F OREERT 4;， 这 使 我 们 有 : 


FG) = FG) + FA) d) OF. (7.95) 
k 
由 式 (7. 81) 所 定义 的 影响 矩阵 AG) 的 分 量 ， 我 们 很 容易 看 出 : 
OF, Cx) _ 
Od, = aA CA) (7. 96) 


其 中 au (1) 是 影响 矩阵 ACA) 对 角 线 上 的 第 上 个 元 素 。 将 式 (7. 96) 代 人 式 (7. 95) PIF FY Ox) 


的 方程 ， 可 得 
Fi (Ki) — au (A) di F(X) — di | 








Te] 一 一 . 
Bete 1 an (A) lauo | (7.97) 
将 式 (7. 97) 代 人 式 (7. 94) 中 ， 我 们 就 可 重新 定义 : 
1 y d, — F,(x,) 2 
Via = yoy (Gos) (7. 98) 


但 是 ， 对 于 不 同 的 &，au (4) 的 值 是 不 同 的 ， 这 说 明 不 同 的 数据 点 在 Vo (3) 中 具有 不 同 的 作用 。 
为 了 避免 通常 的 交叉 验证 的 这 一 特性 ，Craven and Wahba(1979) 通过 坐标 旋转 引入 了 广义 交 
叉 验 证 〈generalized cross-validation，GCV) 。 特 别 地 ， 式 (7. 98) 中 的 Vo CA) 改 变 为 : 
1 x di — Ri Oa) y 
VA) = N22) (7. 99) 


其 中 ， 权 系数 w 由 下 式 所 定义 : 


2 


1 — ay (A) 


i (7. 100) 
NI AGQ)] 





We 








这 样 广义 交叉 验证 函数 V(X) 就 变 为 : 
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N 
ST di — F Cx))? 





VQ) = 


1 
N (7.101) 
( 


1 2 
prO A)]) 
最 后 ， 将 式 (7. BARAK. 101), ANF: 
x la—aapall? 
VQ) = 二 z (7. 102) 
(六 LI 一 AQD]) 


上 式 在 计算 上 仅 依 赖 于 和 数据 有 关 的 量 。 








广义 交叉 验证 函数 V( 和 ^) 的 最 优 性 
广义 交 义 验证 的 期 望 无 效 度 可 定义 为 : 
HRW] 
r min ELRG)] (7. 103) 
其 中 RO) 是 由 式 (7. 80) 定 义 的 数据 集 的 均 方 误差 。 自 然 ，I" 的 渐 近 值 满足 条 件 : 
lim1* = 1 (7. 104) 


换 名 话说， 对 于 一 个 很 大 的 N， 使 VO) 最 小 的 +， 同 时 也 使 RO) 接近 最 小 的 可 能 值 ， 这 
使 得 V(X) 成 为 一 个 很 好 的 估计 4 的 工具 。 
评论 小 结 

一 般 的 想法 是 选择 一 个 使 在 整个 数据 集 上 的 均 方 误差 R(X) 最 小 化 的 4 值 。 但 是 这 一 想法 
不 能 直接 实现 ， 因 为 R() 中 包含 有 未 知 的 回归 消 数 f(x)。 因 此 ， 在 实际 中 我 们 就 要 分 两 种 可 
能 性 来 处 理 : 

。 如 果品 声 方差 已 知 ， 就 选择 使 式 (7. 91) 的 估计 六 (14) 最 小 化 的 4 作为 最 佳 值 ， 这 里 的 

最 佳 是 指 它 也 使 RA ME. 
© 如 果 史 未 知 ， 我 们 可 以 选择 使 得 式 (7. 102) 的 广义 交叉 验证 函数 VG) 最 小 化 的 作为 
好 的 选择 ， 当 Noon, KPA 可 以 使 期 望 均 方 误差 通 近 其 最 小 可 能 值 。 

值得 注意 的 是 ， 使 用 广义 交叉 验证 方法 估计 所 依赖 的 理论 是 渐 近 的 。 只 有 当 所 得 的 数据 
集 大 到 能 使 信号 和 噪声 相 分 离 的 程度 ， 这 种 方法 才能 得 到 令 人 满意 的 结果 。 

在 实际 使 用 中 ， 广 义 交 叉 验 证 方法 对 于 非 齐 次 方差 和 非 高 斯 噪声 情况 ， 表 现 出 很 强 的 鲁 棒 
性 〈Wahba，1990) 。 但 是 如 果 噪 声 过 程 是 高 度 相关 的 ， 这 种 方法 往往 得 不 到 满意 的 正则 化 参 
Boa 的 估计 。 

需要 说 明 的 是 广义 交叉 验证 函数 的 计算 问题 。 对 于 一 个 给 定 的 正则 化 参数 的 试验 值 M， 求 
式 (7. 102) 中 分 母 [tr[I 一 AGQ) 了 /AN]: 将 是 计算 VG) 中 计算 量 最 大 的 部 分 。 在 Wahba 等 (1995) 
中 描述 的 “随机 化 迹 方 法 ”可 以 用 于 计算 [AA] 这 种 方法 可 用 于 超大 规模 的 系统 。 

本 节 关 注 交 叉 验 证 ， 其 用 于 监督 学 习 中 估计 正则 化 参数 。 当 我 们 在 7. 12 节 中 讨论 半 监 督 
学 习 时 ， 会 发 现 需要 面 对 两 个 不 同 的 正则 化 参数 。 这 对 此 处 的 交叉 验证 理论 产生 一 个 有 趣 的 扩 
展 ， 使 其 适用 于 半 监 督学 习 。 
7.9 半 监 督学 习 

在 这 本 书 中 ， 从 第 1 章 的 感知 器 开始 ， 到 这 个 话题 为 止 ， 我 们 一 直 在 关注 监督 学 习 。 即 根 


据 给 定 的 训练 样本 {x d) ， 学 习 一 个 输入 输出 映射 关系 。 我 们 称 这 样 的 数据 集 叫 带 标记 
的 ， 即 对 于 每 个 i 来 说 ,输入 向 量 x 都 配对 了 一 个 预期 的 响应 或 可 称 之 为 类 标 d,。 从 实用 的 角 


216 .第 7 章 正则 化 理论 


度 上 看 ， 对 于 以 监督 的 方式 训练 一 个 网 络 ， 对 样本 手动 标记 类 标 不 但 是 一 个 耗费 大 量 时 间 和 成 
本 的 工作 ， 而 且 这 个 过 程 极 其 容易 出 错 。 相 反 ， 收 集 无 类 标 样 本 〈 即 不 带 有 预期 响应 的 样本 ) 
是 相对 低 成 本 的 ， 并 旦 通常 可 以 容易 地 获得 大 量 的 这 类 样本 。 根 据 这 些 现实 ， 我们 如 何 利用 可 
得 到 的 带 类 标 以 及 不 带 类 标的 样本 来 训练 网 络 呢 ? 这 个 具有 挑战 性 的 问题 的 答案 就 是 使 用 半 监 
督学 习 。 

在 这 个 新 的 学 习 方 法 中 ， 输 入 数据 集 {x;) 羡 被 分 成 两 部 分 ， 

1. 一 个 样本 子 集 ， 记 为 {x:}:-!， 每 个 样本 的 类 标 (di}i-! 是 提供 的 。 

2. 男 一 个 子 集 记 为 (x:} 六 +:， 其 中 每 个 样本 的 类 标 是 未 知 的 。 

基于 此 ， 我 们 可 以 把 半 监 督学 习 看 成 一 种 在 监督 学 习 和 非 监督 学 习 之 间 的 新 的 学 习 形 式 。 
它 比 监督 学 习 要 困难 一 些 ， 但 又 比 非 监督 学 习 要 容易 一 些 。 

作为 一 个 具有 许多 潜在 应 用 的 课题 ， 半 监督 学 习 使 用 广泛 的 学 习 算 法 。 在 本 章 ， 我 们 关注 
基于 流 形 正则 化 的 核 方法 。“ 流 形 ” 是 指 一 个 上 维 的 拓扑 空间 杠 入 到 一 个 维 数 大 于 & 的 n 维 的 
欧 几 里 得 空间 。 如 果 描 述 流 形 的 函数 是 可 偏 微分 的 ， 我 们 称 这 个 流 形 是 可 微 流 形 。 因 此 我 们 可 
以 把 一 个 流 形 的 概念 看 成 民 ' 空间 中 一 个 面 的 概念 的 泛 化 。 同 理 ， 可 以 把 可 微分 流 形 看 成 RR 
空间 中 可 微 面 的 汉化 。 

对 于 关注 基于 流 形 正则 化 的 核 方法 有 以 下 三 点 原因 

1. 对 于 半 监 督学 习 来 说 ， 核 方法 对 本 章 所 讨论 的 正则 化 理论 很 适合 。 

2. 流 形 正则 化 提供 了 对 于 构造 一 个 用 于 半 监 督学 习 的 依赖 数据 的 、 无 参数 的 核 的 有 力 的 
方法 。 
3. 使 用 流 形 正则 化 使 一 些 分 类 任务 产生 较 好 的 结果 。 
简单 地 说 ， 基 于 核 方 法 的 流 形 正则 化 具有 对 半 监 督学 习 理论 产生 深远 影响 的 潜能 。 


7.10 流 形 正 则 化 : 初步 的 考虑 


图 7. 4 描述 了 一 个 半 监 督学 习 过 程 的 模型 。 在 图 中 和 本 章 余下 部 分 ， 为 了 简化 表示 ， 我 们 
用 “分 布 ” 指 代 “ 概 率 密度 函数 ”。 为 了 继续 下 面 的 讨论 ， 图 7.4 中 的 模型 简化 为 如 下 数学 的 
形式 : 
1. 输入 空间 用 8 来 表示 ， 并 假定 是 静态 的 ; = 
、 输入 空间 2 : 
它 提供 两 个 输入 数据 集 ， 一 个 记 为 (x) 人， B p ier 
p(X) 。 我 们 假定 这 也 属于 一 个 稳定 的 过 程 。 J 
2. SF {x} BPA PA x, “BE 
师 ” 提 供 类 标 d;。 类 标 来 自 于 输入 空间 多 ， 并 同 条 
件 分 布 poi x (4 |x) 一致， 是 固定 但 未 知 的 。 
3. 此 机 器 学 习 对 于 两 个 数据 集 产生 一 个 输出 : 
ix dj 1 来 自 输入 空间 ， 并 由 教师 给 出 类 
标的 带 类 标 数据 ， 服 从 联合 分 布 
pxp (Xd) = pox (dk) px(x) (7.105) 
根据 这 个 定义 ，p, (Xx) 是 边缘 分 布 ， 通 过 
对 联合 分 布 px.p (x,d) 在 预期 响应 4 ER jE 
分 得 到 。 无 类 标 数据 
© KARR (x ) 关 +， 由 输入 数据 空间 多 Cj 
中 直接 得 到 ， 服 从 分 布 p09. 图 7.4 半 监 督学 习 过 程 模型 







AKIRE (Xod i= 


联合 分 布 
Px (Xd) 
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因此 ， 不 同 于 监督 学 习 ， 半 监督 学 习 中 的 样本 组 成 如 下 所 示 : 
(训练 样本 ) = Cx ds} iors {x} hin) 
带 类 标的 无 类 标的 
在 模式 识别 或 回归 相关 问题 中 ， 由 于 用 流 形 正 则 化 在 改进 的 函数 学 习 中 有 所 不 同 ， 因 此 假 
定 在 分 布 px OO 和 条 件 分 布 pxin(x14) 之 间 存 在 一 个 等 价 关 系 。 基 于 如 下 两 个 重要 的 假定 
(Chapelle 等 ，2006) ， 我 们 可 以 构造 这 两 个 分 布 之 间 可 能 的 关联 : 
1. 流 形 假设 ， 如 下 所 述 : 


输入 空间 史 下 的 边缘 分 布 如 (x) 由 低 维 数 的 流 形 提供 。 


这 第 一 个 假设 的 含义 是 指 条 件 概 率 函 数 pxip (x|d) 相应 于 流 形 下 的 结构 而 缓慢 地 变化 〈 作 
为 x RRO. 

这 里 我 们 提出 一 个 问题 : 如 何 使 用 此 流 形 假设 ?” 要 回答 这 个 问题 ， 我 们 要 注意 如 第 4 章 一 
些 篇 幅 中 讨论 的 维 数 灾难 问题 。 简 单 地 说 ， 随 着 输入 空间 维 数 的 增加 、 一 个 学 习 任 务 对 于 样本 
数量 的 需求 是 指数 增长 的 。 如 果 ， 已 知 数据 是 在 一 个 低 维 数 的 流 形 上 的 ， 我 们 可 以 通过 在 相应 
的 低 维 数 空间 上 实施 学 习 ， 以 避免 维 数 灾 问 题 。 

流 形 假设 对 于 某 些 物理 过 程 是 恰当 的 。 比 如 说 ， 考 虑 语音 生成 过 程 ， 这 可 以 看 成 是 在 一 发 
声 源 激 发 一 个 发 声 系统 滤波 器 时 ， 一 种 滤波 的 形式 。 发 声 系统 由 一 系列 非 一 致 的 交叉 区 域 组 
成 ， 由 声 门 开 始 ， 到 嘴唇 结束 。 当 声音 随 局 部 发 声 系 统 传递 ， 声 音信 号 的 频谱 由 发 声 系 统 的 频 
率 选择 性 形成 ; 这 个 效果 与 从 管风琴 中 观察 到 的 共鸣 现象 有 些 相似 。 这 里 需要 注意 的 要 点 是 语 
音信 号 空间 是 一 个 低 维 的 流 形 ， 变 化 的 参数 是 发 声 系 统 的 长 度 和 宽度 。 

2. RARER, WER: 

随 着 应 用 于 函数 学 习 的 样本 形成 ， 边 缘分 布 p(X) 由 如 下 方式 定义 : 如 果 特 定 的 样本 点 位 
于 相同 的 聚 类 中 ， 那 么 它们 很 有 可 能 是 同一 类 的 。 

这 第 二 个 假设 具有 合理 性 。 这 是 因为 它 对 于 一 个 模式 分 类 问题 中 的 各 个 类 是 可 行 的 。 特 别 地 ， 
如 果 两 个 样本 输入 两 个 不 同 的 类 中 ， 我 们 观察 到 它们 位 于 同一 个 聚 类 的 可 能 性 是 相对 比较 低 的 。 


7. 11 可 微 流 形 
我 们 用 如 下 直觉 上 的 概念 来 开始 可 微 流 形 的 讨论 : 


流 形 是 一 个 抽象 的 数学 空间 。 它 其 中 每 一 个 点 都 有 一 个 局 部 的 邻接 点 ， 这 与 欧 几 里 得 空间 
相似 ， 但 从 全 局 的 角度 来 说 ， 此 空间 中 的 点 之 间 具 有 内 在 的 结构 ， 这 比 欧 几 里 得 空间 要 复杂 。 


因此 ， 我 们 可 以 把 流 形 想象 成 一 个 嵌入 欧 几 里 得 空间 的 平面 的 抽象 。 

在 描述 流 形 时 ， 维 数 的 概念 十 分 重要 。 广 义 上 说 ， 如 果 一 个 点 的 局 部 邻居 在 流 形 上 是 n 维 
欧 几 里 得 空间 的 ， 我 们 可 以 说 这 是 一 个 = 维 流 形 ， 或 二流 形 。 

流 形 与 欧 几 里 得 空间 的 局 部 相似 度 被 假定 足够 接近 ， 以 便 将 微 积分 中 的 常用 规则 用 于 流 
形 ， 使 得 流 形 学 习 更 为 简单 。 扩 展 这 个 论断 ， 用 民 表 示 实 数 集 ， 用 RR" 表示 它们 之 间 的 Carte- 
sian 点 集 。 在 流 形 学 习 中 ，R" 有 以 下 含义 : 有 时 R" 只 是 表示 一 个 拓扑 空间 ; ANR 用 来 表 
示 一 个 维 向 量 空 间 ， 其 上 的 操作 是 连续 的 ， 且 与 拓扑 相关 ; ARR” 简单 地 等 同 于 一 个 欧 几 
里 得 空间 。 

概括 地 说 ， 拓 扑 空间 是 一 个 几何 物体 。 为 了 更 准确 地 定义 ， 我 们 必须 引入 集 合 论 ， 

用 久 表 示 任何 一 个 集合 ， 用 表示 久子 集 组 成 的 子 集 繁 。 则 9 是 一 个 拓扑 ， 如 果 如 下 三 点 


(7. 106) 
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成 立 : 
天 会 全 局 于。 
9 中 有 限 个 元 素 的 并 仍 属于 9 。 
3) 了 中 任意 多 个 元 素 的 交集 仍 是 9 中 的 元 素 。 
如 果 加 是 如 上 定义 的 拓扑 ， 则 集合 匀 《 如 上 定义 中 的 ) 连同 了 组 成 了 一 一 个 拓扑 空间 ， 


9 中 的 元 素 叫 做 X 的 开 集 。 这 个 定义 的 本 质 是 指 它 可 以 使 我 们 定义 “连续 ”映射 :一 个 拓 
扑 空 间 之 间 的 映射 (或 称 函 数 ) f XY 被 称 作 连 续 的 ， 如 果 Y 中 任何 开 集 A ARR STA) 
本 身 是 X 中 的 开 集 。 原 象 六 (4) 指 X 中 通过 /映射 到 工 中 的 4 的 点 z 的 集合 。 

出 于 对 可 微 性 这 一 问题 的 特别 的 考虑 ， 令 民 " 中 一 子 集 X 为 开 集 。 开 集 定 义 为 一 个 其 中 任 
意 点 到 它 的 边 之 间 的 距离 都 大 于 0 的 集合 。 让 xE X， 记 向 量 x 第 i 个 分 量 为 z;，f(x) 为 从 XX 
到 民 的 映射 。 我 们 可 以 作出 如 下 的 论断 : 

对 于 一 个 非 负 的 整数 k， 如 果 所 有 的 偏 微分 Ff/Bx? EX LEEA Ain, A 
0ak)， 则 函数 f(x) 是 可 微 的 ， 称 为 开 集 义 上 的 C* X, 或 概括 地 说 /属于 Ct 的 。 


基于 此 论断 ， 我 们 可 以 说 函数 f 属于 C”〔 即 无 穷 可 微 故 光滑 的 )， 如 果 对 于 任意 & 宇 0,， f 
WEF Ct. 





ai 





> 





z 





An=y 
设置 X 设置 Y 
图 7.5 一 个 双 射 f: X—Y 


我 们 仍 没 有 为 正式 定义 微分 流行 做 好 完全 的 准备 。 因 此 ， 我 们 需要 引入 一 些 其 他 概念 ， 描 
述 如 下 : 
1. EJ 
考虑 一 个 在 集合 X 和 了 之 间 的 映射 上 ，X->Y。 如 果 了 具有 如 图 7.5 所 示 的 属性 : 对 于 Y 中 的 
每 个 y，X 中 都 存在 唯一 的 zx， 使 得 fO=y, M FRARI. 
XAY 两 拓扑 空间 之 间 的 双 射 /: XY 叫做 同 构 映射 ， 如果 f 和 其 逆 映 射 广 : 都 是 连 
的 。 当 这 样 的 了 存在 时 ， 我 们 称 X 和 YY 之 间 是 互相 同 胚 的 。 
从 物理 意义 上 看 ， 我 们 把 同 胚 看 成 一 个 拓扑 空间 的 连续 延伸 和 弯曲 ， 使 原 空 间 被 改变 成 了 
一 种 新 的 形态 。 比 如 说 ， 一 个 咖啡 杯 和 一 个 油 炸 圈 饼 之 间 是 同 构 的 ， 因 为 咖啡 杯 可 以 被 连续 地 
变形 为 一 个 油 炸 圈 饼 ， 反 之 亦 然 。 另 一 方面 ， 一 个 油 炸 圈 饼 绝 不 可 能 变形 为 一 妹 ， 无 论 对 其 如 


何 连 续 的 延伸 或 弯曲 。 
直觉 上 ， 我 们 可 以 说 同 胚 映射 把 一 个 拓扑 空间 中 的 距离 接近 的 点 映射 到 田 一 个 拓扑 空间 


中 ， 使 它们 之 间 的 距离 仍然 很 接近 。 

2. FAS Ie] 
要 定义 这 个 概念 ， 我 们 要 求 XM Y ER" 中 的 开 集 。 我 们 说 /;: XY 是 微分 同 胚 的 ， 如 

果 满 足以 下 两 个 条 件 : 
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D f EREK. 

2) fS ARE Ee OT BAN 

这 里 ，X ALY BK WADE. WR SMS RE k KERTA, WER 为 C* -可 
微 同 胚 的 。 
3. 图 表 和 图 集 

在 学 习 世界 地 理 时 ， 我 们 发 现 使 用 图 集 和 图 表 代替 把 世界 表示 为 一 个 整体 的 办 法 是 很 方便 
的 。 对 于 世界 的 一 个 完整 的 图 片 ， 我 们 用 图 集 ， 即 一 族 可 以 覆盖 世界 不 同 部 分 的 地 图 。 

这 种 对 世界 地 理 非 数学 方式 的 视角 导致 我 们 在 直觉 上 得 到 构造 拓扑 流 形 负 的 过 程 : 

1) 选 出 一 族 重 又 的 简单 空间 ， 可 以 覆盖 住 整个 拓扑 空间 Ul 

2) 每 个 简单 空间 都 同 R" 中 的 一 个 开 集 间 胚 。 每 个 这 样 的 同 胚 叫做 一 个 图 表 。 

3) 这 些 图 表 被 拼接 成 光滑 的 方式 。 

每 个 图 表 都 由 一 个 三 元 组 (X, Y, O 组 成 ， 其 中 X BR, YER" 中 的 开 集 ， 
f: X>Y 是 一 个 同 胚 映射 。 

显然 ， 一 族 覆 盖 住 整个 4 的 重 春 的 图 表 叫 做 一 个 图 集 。 很 显然 通过 这 个 过 程 不 存在 构造 流 
形 的 唯一 方法 。 

从 数学 意义 上 说 ， 我 们 可 以 看 如 下 的 关于 图 表 和 图 集 的 定义 : 

1) 用 X fi) 表示 第 i 个 图 表 ， 则 图 集 是 所 有 这 些 图 表 的 交 。 

2) 图 集中 的 任意 两 个 图 表 (X;,f;) MX), BPM. 6 中 的 意义 ， 必 须 是 相 容 的 : 


Yi D 





Y 


Ta > 欧 几 里 得 空间 
i : 
5. NX) 
一 
P 


1 


RERA 





> 欧 几 里 得 空间 
x 














流 形 
M 


图 7.6 一 个 图 集 和 组 成 它 的 图 表 之 间 的 关系 示例 。[ 此 图 引用 Abraham (1988) | 


。 对 于 两 个 图 表 的 公共 部 分 ， 如 图 7. 6 的 阴影 部 分 所 示 ， 必 须 是 开 的 。 

。 阴影 的 重要 部 分 ， 记 为 f; ， 必 须 是 C 微分 同 胚 的 。 

注意 ， 广 是 一 个 从 像 集 fC(X; 门 X;) 到 像 集 f; (Xi 门 X;) 的 映射 ,其 中 符号 站 表示 两 个 集合 
的 乘积 或 交 。 通 过 要 求 每 个 方 都 是 C -可 微 同 胚 的 ， 我 们 可 以 确定 LE C"- 可 微 函数 的 意义 。 
可 微 流 形 

最 后 ， 我 们 给 出 可 微 流 形 的 定义 : 

一 个 由 三 元 组 (X;,Yi,f1) ,i 一 1,…,] 表 示 的 n 维 的 C*- 可 微 流 形 刀 是 一 个 拓扑 集 ， 其 中 每 
个 Y; 是 一 恨 " 上 的 开 集 ， 使 得 所 有 重 本 的 映射 方 都 是 C -可 微 的 。 
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这 个 定义 是 指 对 于 每 个 维 数据 点 xE A， 都 有 一 个 表 (X, Y, H, HP, xex A fH 
FRX 映射 到 R" 的 开 子 集 Y E. 
为 什么 对 流 形 学 习 感 兴趣 

为 了 评价 流 形 在 学 习 理 论 中 的 重要 性 ,假定 我 们 有 一 系列 无 类 标 样本 ， 记 为 x ,xs，*…， 
其 中 每 个 样本 的 维 数 都 是 nw。 这些 样 本 可 以 表示 成 4 维 欧 几 里 得 空间 中 的 数据 点 集 。 大 多 数 无 
监督 学 习 算 法 只 是 在 由 样本 xi ,x ，… 标 出 的 外 围 空间 上 执行 。 假 定 我 们 可 以 构造 一 个 维 数 低 
于 nn 的 流 形 ， 使 得 真正 的 数据 位 于 或 在 那个 流 形 周 图。 这 样 ， 就 很 有 可 能 通过 了 解 流 形 以 及 其 
外 图 空 间 的 几何 属性 ， 设 计 出 一 个 更 有 效 的 半 监 督学 习 算法 。 这 里 描述 的 此 思想 不 仅仅 是 数据 
表示 的 另 一 种 方法 ， 它 通过 采样 数据 点 ， 提 供 了 一 种 流 形 上 的 逼近 问题 的 学 习 算 法 的 新 体制 
(Belkin，2003) 。 但 是 ， 为 了 使 这 些 新 方法 成 为 现实 ， 我 们 必须 知道 用 来 描述 输入 空间 的 内 在 
几何 结构 的 流 形 的 特征 。 遗 局 的 是 ， 这 些 知识 在 实际 应 用 中 很 难 获 得 。 为 了 解决 这 个 难题 ， 如 
下 面 两 节 讨 论 的 那样 ， 我 们 尝试 构造 流 形 的 模型 。 


7.12 广义 正则 化 理论 


在 第 7. 3 节 中 讨论 的 Tikhonov 经 典 正则 化 理论 ， 使 用 了 一 个 反映 类 标 样 本 所 在 的 外 围 空间 
的 简单 罚 函数 。 在 本 节 ， 我 们 对 此 理论 推广 ， 使 用 另 一 个 反映 无 类 标 样本 所 在 的 输入 空间 内 在 几 
何 结构 的 罚 函 数 。 实 际 上 ， 这 个 新 理论 ， 即 广义 正则 化 理论 ， 使 用 了 基于 类 标 样 本 和 无 类 标 样 本 
的 半 监 督 函数 学 习 的 思想 。 另 外 ， 它 包括 了 在 特殊 情形 下 仅 基 于 无 类 标 样 本 的 半 监 督 函 数学 习 。 

成 对 出 现 的 带 类 标 样本 记 为 (x,d)， 根 据 式 (7. 105) PE MARA DA BRL px.p (xd) Pi 
生 。 无 类 标 样 本 ，xEX， 由 边缘 分 布 函数 p Cx) 所 产生 。 此 广义 正则 化 理论 潜在 的 前 提 是 这 两 
个 分 布 之 间 存 在 一 个 等 价 关 系 。 否 则 ， 边 缘分 布 的 知识 不 可 能 被 实际 使 用 。 因 此 ， 我 们 作出 如 
下 的 假定 : 

如 果 两 个 输入 样本 点 X; » Xj EX ELDAR BR p(x) 内 在 几何 结构 中 是 接近 的 9 那 么 对 
于 在 点 X 一 和 X 一 的 条 件 分 布 函数 panal d 是 相似 的 。 

为 了 把 这 个 假定 改 成 更 为 实际 的 方式 ， 使 得 能 得 到 实用 的 办 法 ， 我 们 如 下 表述 ， 

jo RR PEGE x fox, 在 输入 空间 中 很 接近 ， 半 监督 函数 学 习 的 目标 是 找到 一 个 记 为 F(x) 的 
映射 ， 使 得 能 把 相应 的 输出 点 F(x%)，F(%) 映 射 到 位 于 同一 条 实 线 上 且 距 离 很 近 的 可 能 性 较 大 。 

要 达到 这 个 目标 ， 我 们 需要 在 经 典 正则 化 理论 中 所 考虑 的 罚 项 外 ， 引 入 一 个 新 的 罚 项 。 

具体 地 说 ， 我 们 推广 半 监 督学 习 的 正则 化 代价 函数 ， 引 入 一 个 新 的 罚 项 ， 如 下 所 示 : 

E&F) = KG — Fx)? + tan | FI +a IFI (7.107) 


其 中 两 个 罚 项 如 下 : 

1. 由 外 国正 则 化 参数 44 控制 的 罚 项 Fk KATES EARR 了 的 复杂 度 。 特 
别 地 ， 这 个 罚 项 以 特征 空间 〈 即 下 标 K) 复制 核 Hibert 空间 (RKHS) 表示 形式 给 出 。 

2. 由 内 在 正则 化 参数 控制 的 罚 项 | 下?， 反映 了 输入 空间 ( 即 下 标 D 内 在 几何 结构 。 

Q CF) 中 的 下 标 和 代表 两 个 正则 化 参数 +4。 和 X:。 注 意 式 (7. 107) 右 端 第 一 项 ， 我 们 使 用 / 
表示 带 类 标 样本 的 数量 。 

因为 没有 内 在 罚 项 | FIt RKHS 上 的 代价 函数 有 (有 的 最 小 点 由 如 下 的 经 典 表示 理论 定义 : 


F* (x) 一 Dy ak (x,%), X a= 0 (7. 108) 
根据 此 ， 这 个 问题 可 以 规约 到 一 个 在 由 系数 {ai}{-! 所 定义 的 有 穷 维 空间 上 的 优化 。 我 们 
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可 以 推广 此 理论 以 同样 包含 内 在 罚 项 Fi。 
为 了 此 目标 ,我 们 提出 用 一 个 图 来 对 输入 空间 的 内 在 几何 结构 建 模 的 办 法 。 而 如 下 面 将 讨 
论 的 那样 ， 用 于 构造 此 图 的 无 类 标 样本 是 足够 多 的 。 


7.13 光谱 图 理论 


考虑 这 个 训练 样本 ， 
xX 一 {x } 
其 中 包含 N 个 输入 数据 ， 既 有 带 类 标的 ， 也 有 无 类 标的 。 根 据 这 个 训练 样本 ， 通 过 构造 一 个 
包含 N 个 结 点 的 带 权 无 向 图 来 处 理 。 其 中 每 个 结 点 表示 一 个 输入 样本 点 ， 图 中 的 一 系列 边 连 
接 相 邻 结 点 。 任 意 两 个 结 点 ; 和; 之 间 是 有 连接 的 ， 如 果 相 应 两 数据 点 和 x; 之 间 的 欧 几 里 
得 距离 足够 小 ， 对 于 一 些 指定 的 es， 可 满足 如 下 条 件 : 
| x, —x, ll <e (7. 109) 
这 个 邻接 准则 有 如 下 双重 吸引 人 的 特点 : 包 何 直观 性 和 自然 的 对 称 性 。 然 而 ， 必 须 记 住 的 
是 ， 因 为 这 个 图 很 有 可 能 有 多 重 的 连通 分 量 ， 对 常量 选择 一 个 合适 的 值 是 比较 困难 的 。 
用 w 表示 连接 结 点 ; 和 7 的 无 向 边 的 权 值 。 图 中 所 有 的 权 值 通常 都 用 实数 表示 ， 对 于 这 
些 权 值 的 选择 需要 满足 以 下 三 个 条 件 : 
L 对 称 性 ， 即 指 对 于 所 有 G, js wy 一 wi 成 立 ; 
2. 连通 性 ， 即 指 如 果 相 应 的 结 点 2 和 7 是 连接 的 ， 则 权 值 wz 非 零 ， 否 则 权 值 wi 为 零 ; 
3. 非 负 性 ， 指 对 于 所 有 G, j), w20. 


A, NXN 的 权 值 矩阵 : 
W = {w;) 
是 一 个 对 称 非 负 定 矩 阵 ， 其 所 有 的 元 素 都 非 负 。 甜 阵 W 的 行 和 列 指 代 图 中 的 结 点 ， 但 它们 的 
顺序 并 不 重要 。 此 后 ,我 们 指 由 权 值 矩阵 W 表示 的 无 向 图 为 G。 | 
用 了 表示 一 个 NXN 的 对 角 和 矩阵 ， 其 中 它 的 对 角 线 上 元 素 都 如 下 定义 、: 


N 
te = Dlws (7.110) 


这 叫做 结 点 i 的 度 。 换 名 话说 ， 结 点 i 的 度 等 于 权 值 矩阵 W 所 有 第 TPR MA. WE 
越 大 ， 结 点 i 就 越 重要 。 在 很 少 的 情况 下 ， 志 的 值 会 为 零 ， 则 结 点 KARL, 
在 权 值 矩阵 W 和 对 角 和 矩阵 工 中 ， 我 们 现在 定义 图 G 的 拉 普 拉 斯 算 子 如 下 : 
L=T-W (7. 111) 
ABBE AREER, MAMAR i，ws 二 0， 则 对 于 拉 普 拉 斯 矩阵 工 的 第 i 行 j 列 中 的 元 
素 ， 我 们 有 : 


bis 对 于 了 =i 
lj =|. 对 于 邻接 点 和 J (7. 112) 
0， 否则 
因此 我 们 得 知 拉 普 拉 斯 斥 阵 工 是 对 称 矩 阵 。 
如 下 所 述 ， 图 拉 普 拉 斯 是 构造 一 个 合适 的 光滑 函数 而 处 理 内 罚 项 下? 的 关键 所 在 。 
因为 拉 普 拉 斯 矩阵 工 是 对 称 和 矩阵 ， 它 的 特征 值 是 实 的 。 有 关 特 征 分 解 的 话题 ， 包 括 计 算 一 
个 对 称 矩 阵 的 特征 值 ， 在 第 8 章 将 详细 讨论 。 在 此 ， 我 们 发 现 用 对 称 和 矩阵 的 Rayleigh 系数 去 
求 拉 普 拉 斯 矩阵 工 的 特征 值 的 变化 特征 很 适合 。 因 此 ， 用 工 表示 一 个 人 造 的 关于 输入 向 量 x 的 
向 量 值 函数 。 其 中 x 是 关于 图 G 中 的 每 一 个 结 点 赋 一 个 实数 值 。 然 后 可 以 用 如 下 的 比值 来 定义 
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拉 普 拉 斯 算 子 工 的 Rayleigh H: 
À Rayleigh 一 Lf 
me ff 
此 Rayleigh 商 体现 了 两 个 内 积 的 比 : 
1. 函数 了 和 矩阵 Lf 的 内 积 ， 其 中 拉 普 拉 斯 矩阵 工 作为 作用 在 函数 人 上 的 一 个 算 子 。 
2. AA 同 它 本 身 的 内 积 ， 即 『 的 欧 几 里 得 范 数 的 平方 。 
应 注意 到 根据 式 (7. 113)， 式 中 的 拉 普 拉 斯 矩阵 工 是 一 个 非 负 定 的 和 矩阵。 
L 是 一 个 NXN 的 矩阵 ， 所 以 它 应 该 有 N 个 实 的 特征 值 。 对 它 的 特征 值 按 顺 序 排列 如 下 : 
Ao Sd S e S Ànn 
这 些 特征 值 就 叫做 拉 普 拉 斯 矩阵 工 的 特征 光谱 ， 或 关联 和 矩阵 G 的 特征 光谱 。 不 难看 出 ， 最 小 
特征 值 4 是 0， 且 相应 的 特征 向 量 是 1， 即 其 所 有 的 N 个 分 量 都 是 1。 第 二 小 的 特征 向 量 对 
于 光谱 图 理论 起 到 了 重要 的 作用 。 
且 不 说 的 重要 性 和 拉 普 拉 斯 矩阵 工 的 其 他 特征 值 ， 本 章 主要 关注 的 是 为 处 理 内 罚 项 
| Fi? 找到 一 个 合适 度量 。 我 们 看 式 (7. 113) ， 寻 找 的 度量 就 是 Rayleigh 商 的 分 子 〈 二 次 项 
frLf) 。 相 应 地 ， 我 们 引 和 人 光滑 函数 


(7.113) 





Sc (F) = f LF (7.114) 
这 不 仅 合理 ， 而 且 直 觉 上 满足 要 求 。 向 量 值 隙 数 f 就 训练 样本 XX 定义 如 下 : 
f = [F(x1) FO), Fan) (7.115) 


因此 ， 在 式 (7. 114) 中 使 用 式 (7. 112) 和 式 (7. 115)， 我 们 可 以 同样 通过 如 下 所 示 的 和 式 来 
表达 光滑 函数 : 
SCF) = >) wy FG) — F(x) (7.116) 


二 1 = 


其 中 w; 是 连接 结 点 i 和 j 的 边 的 权 值 。 
为 了 完成 对 光滑 函数 Se (7) 的 描述 ， 我 们 需要 一 个 对 图 G 的 边 权 值 估 值 的 公式 。 根 据 核 方 
法 的 精通 ， 我 们 用 核 函 数 来 定义 连接 结 点 i 和 7 的 边 的 权 值 w;; B 


W; = k(x; »X;) C7. 117) 
这 个 定义 对 权 值 ww 满足 对 称 性 ， 连 通 性 和 非 负 性 的 条 件 。 一 个 这 样 的 核 的 例子 是 高 斯 函数 : 
ku) = exp(— HÉ) (7. 118) 
20 


其 中 是 设计 者 控制 的 参数 ， 假 定 对 所 有 的 i 都 相同 ， 即 所 有 的 核 都 在 光谱 图 中 。 
在 此 ， 对 半 监 督学 习 的 内 容 中 的 要 点 总 结 如 下 : 


通过 联合 式 (7. 117) 和 式 (7. 118) ， 对 光谱 图 理论 的 应 用 ， 使 得 关于 半 监 督学 习 的 机 器 学 习 
称 为 核 机 器 。 此 核 机 器 的 隐藏 层 通过 产生 无 类 标 样 本 的 输入 空间 的 内 在 几何 结构 确定 。 
7.14 广义 表示 定理 
通过 已 得 到 的 式 (7. 114) 中 的 光滑 函数 ， 我 们 可 以 把 式 (7. 107) 中 的 代价 函数 重 写成 预期 的 形式 ， 
gF) = +> (d, — F(x,))? + tas | Fllk 十 二 rrLf (7.119) 
其 中 对 一 个 再 生 核 Hilbert 空间 进行 优化 〈 即 正在 RKHS P). HR RKE EEE 
一 个 扩张 形式 ， ; 
Fi (x) = Dark) (7. 120) 
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其 中 既 包 括 带 类 标 样本 又 包括 无 类 标 样 本 (Belkin 等 ，2006)。 因 此 ， 这 个 扩张 可 以 看 作 
经 典 表示 定理 在 半 监 督 中 的 泛 化 。 

为 了 证 明 此 定理 ， 我 们 首先 需 认识 到 任何 再 生 核 Hilbert 空间 中 的 隆 数 F(x) 可 以 被 分 解 成 
两 个 分 量 的 和 : 一 个 分 量 下 i (x)， 包 含 在 核 函数 有 (。,z1)，k(， ,zs),…,k(。 san) 张 成 的 空间 
中 ; 另 一 个 分 量 F(x)， 包 会 在 它 的 正 交 补 空间 中 。 即 可 以 写成 : 


N 
F(x) = Fi @) + F, (x) = Dak(x,x) +F, (x) (7.121) 


其 中 a, 是 实 系数 。 通 过 引入 第 6 意 中 讨论 的 再 生 属 性 ， 我 们 发 现 当 1 过 j 达 N 时 ， 对 函数 FOO 
在 任意 数据 点 x; 的 估 值 ， 是 同 正 交 分 量 独立 的 ， 即 如 下 : 


F(x) 一 (FRRCD)) = CD aik Cex) kG eK) + FL ROK)? 


N (7.122) 
=J aks) kO) TT CF, ,kG ,Xi)) 
现在 注意 两 点 ， 
1. ERCO. 122) 的 第 一 项 中 ， 我 们 有 
(klex) ,RC yx)? = ROX» NI) 
2. 在 第 二 项 中 CF, ,k(, ,x;))，, WE. 
因此 可 以 得 到 ， 
‘ N 
F(x) = Dak (x x;) (7. 123) 


此 式 显示 包含 正则 化 代价 函数 和 最 小 化 式 (7. 119) 的 内 在 范 数 的 经 验 项 仅 依赖 于 系数 (aA 
核 函 数 的 Gram E. 

下 面 ， 我 们 注意 到 对 所 有 的 下 ， 这 个 正 交 分 量 仅 趋 于 增加 再 生 核 Hilbert 空间 中 函数 的 

范 数 。 换 句 话说 ， 
| || + iF. Ne > Detox) 
其 中 最 小 下 标 K 指 再 生 核 Hilbert 空间 。 

因此 ， 为 了 使 对 代价 函数 名 (F) 最 小 化 得 以 实现 ， 我 们 必须 有 F 一 0， 这 就 证 明了 式 
(7. 120) 中 的 广义 表示 定理 。 在 此 式 中 使 用 了 最 优化 设置 的 表示 。 

此 广义 表示 理论 的 简单 形式 把 一 个 外 在 -内 在 正则 化 框架 转换 成 为 一 个 相应 的 由 有 穷 维系 
Bela... 空间 所 规定 的 优化 问题 成 为 了 可 能 。 其 中 N 是 所 有 带 样本 和 无 类 标 样本 的 数量 的 
总 和 (Belkin 等 ，2006) 。 这 样 做 ， 我 们 可 以 为 了 解决 7.15 节 所 示 的 困难 的 半 监 督学 习 问 题 而 
引入 核 方 法 。 


7.15 拉 普 拉 斯 正则 化 最 小 二 乘 算法 


在 7.12 节 中 ， 我 们 介绍 了 光滑 函数 的 概念 ， 其 公式 体现 了 光谱 图 理论 下 的 拉 普 拉 斯 算 子 。 
特别 地 ， 定 义 的 光滑 函数 的 公式 是 核 的 ， 正 如 式 (7. 116) 和 式 (7. 118) 所 示 ， 其 使 得 函数 非 线性 
地 依赖 于 输入 向 量 x。 下 面 我 们 将 广义 化 该 表示 定理 ， 使 得 该 函数 适应 于 带 类 标 样本 和 无 类 标 
样本 。 利 用 这 些 我 们 可 处 理 的 工具 ， 现 在 我 们 可 以 设 定 拉 普 拉 斯 正则 化 最 小 二 乘 算法 的 公式 
(Belkin 等 ，2006; Sindhwani 等 ，2006)。 新 算法 的 实用 性 体现 在 以 下 两 点 : 

L 对 该 算法 的 训练 既 使 用 带 类 标 样 本 ， 又 使 用 无 类 标 样本 ， 因 此 ， 可 把 算法 的 实用 性 提 
升 到 比 那些 现 有 的 单独 的 监督 训练 算法 更 广 的 范围 。 
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2. 通过 核 方法 ， 算 法 可 以 对 非 线 性 可 分 离 的 模式 进行 识别 ， 因 此 ， 拓 展 了 最 小 二 乘 估计 
的 应 用 。 

基本 上 说 ，LapRLS 算法 来 源 于 最 小 化 式 (7. 119) 中 关于 函数 FCx) 的 代价 函数 。 (对 带 类 
标 样本 和 无 类 标 样 本 ) 使 用 表示 定理 ， 我 们 有 


N 
F(x) = Jak (x,x,) 
在 式 (7. 119) 中 使 用 矩阵 符号 ， 得 到 
Bla) = Ld- JKa)"(d~ JKa) + asa" Kat Faia" KLKa (7.124) 


此 处 我 们 引入 以 下 符号 : 
d 一 : 乘 以 1 的 预期 相应 向 量 
=[di,ds di] 
a 一 入 乘 以 1 的 扩张 系数 向 量 
一 [Lai 92 ON 
J] = 二 N 乘 以 N 的 对 角 算 阵 ,其 对 角 线 上 只 有 1 个 是 单位 项 
一 diag[1,1,，…，,1,0,0,，…,0] 
此 LXL 的 和 矩阵 K 是 .Gram 矩阵 ,， 工 是 拉 普 拉 斯 图 和 矩阵。 注意 到 式 (7. 124) 右 边 的 表达 式 
是 一 个 未 知 向 量 a 的 二 次 函数 ， 因 此 代价 函数 可 记 为 名 (a)。 对 此 等 式 关于 向 量 a 微分 ， 合 并 
并 简化 项 ， 然 后 求解 最 小 点 值 a”， 得 到 
a* 一 (JK 十 AI 十 ArLK) 一 Jd (7. 125) 
其 中 使 用 Gram 和 矩阵 的 对 称 性 和 对 角 和 矩阵 了 、 单 位 矩阵 I。 见 习题 7. 16 。 
当 我 们 把 内 在 正则 化 参数 设 定 为 零 时 〈 即 := N)，( 请 注意 此 条 件 下 抢 阵 芽 成 为 标准 对 角 
阵 的 形式 )， 式 (7. 125) 中 的 公式 被 简化 到 式 (7. 74) 中 普通 正则 化 最 小 二 乘 算法 。 
表 7.1 给 出 了 一 个 LapRLS 算法 的 总 结 ， 其 中 包含 四 个 设计 者 控制 的 参数 : 
l. 两 个 正则 化 参数 : AA A Aas 
2. 两 个 图 参数 e。 Ho’, Hp e 用 于 式 (7. 109) 的 邻接 矩阵 中 ，o ATACO. 118) 中 的 核 权 值 中 。 
注意 到 这 个 算法 不 需要 计算 RLS 算法 的 权 值 向 量 。 我 们 通过 计算 与 表示 定理 相关 的 参数 
向 量 a， 而 避免 了 对 此 的 计算 。 
在 表 7. 1 中 总 结 了 一 个 半 监 督学 习 算法 的 显著 的 特征 ， 就 是 需要 知道 两 个 正则 化 参数 A 和 
和 1。 正如 我 们 以 前 指出 ， 推 广 第 7. 8 节 的 交叉 验证 理论 正 适合 对 Aa A, 进行 估计 。 


表 7.1 拉 普 拉 斯 正则 化 最 小 二 乘 算法 总 结 


给 定量 
向 量 样本 tx, diha Ml (xi}haii, 分 别 是 带 类 标的 和 无 类 标的 。 
! 是 带 类 标 样 本 的 数量 ，N 一 ! 是 无 类 标 样 本 的 数量 。 
设计 的 参数 
clo: ”光谱 图 参数 
AA 和 41: ”正则 化 参数 ， 外 部 的 和 内 在 的 
计算 
1. 构造 一 个 有 N 个 结 点 的 带 权 无 向 图 C， 使 用 
。 式 (7. 109) 对 图 的 邻接 点 进行 辨认 。 
。 式 (7. 117) 和 式 (7. 118) 计 算 边 权 值 。 
2. PEPER RR ECx,，)， 并 使 用 训练 样本 计算 Gram 矩阵 K= {k(xi »x;)) joie 
3. 使 用 式 (7. 110) 和 式 (7. OIDHRE G 的 拉 普 拉 斯 矩阵 工 。 
4. 使 用 式 (7. 125) 计 算 最 优 系数 向 量 a* 。 
5. 使 用 式 (7. 120) 的 表示 理论 计算 优化 允 近 函数 Fx (x)。 
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7. 16 用 半 监 督学 习 对 模式 分 类 的 实验 


为 了 说 明 拉 普 拉 斯 RLS 算法 的 模式 分 类 能 力 ， 我们 基于 抽取 自 图 1.8 的 双 月 图 的 合成 数 
据 来 进行 一 个 小 的 实验 。 特 别 地 ， 我 们 把 实验 中 的 两 个 参数 设置 为 固定 不 变 的 ， 

两 个 月 亮 之 间 的 垂直 分 离 ，d 一 一 1。 

外 转正 则 化 参数 ，A4 二 0. 001。 


实验 中 唯一 变化 的 参数 是 内 正则 化 参数 Ar 

4A 正好 被 设置 为 零 时 ， 拉 普 拉 斯 RLS 算法 简化 成 传统 的 RLS 算法。 其 中 带 类 标 数 据 是 
提供 学 习 信息 的 唯一 来 源 。 从 实验 的 角度 来 看 ， 我 们 关注 的 是 在 半 监 督学 习 的 过 程 中 ， 加 入 无 
类 标 信息 是 如 何 通过 变化 的 参数 4 影响 由 拉 普 拉 斯 RLS 算法 构造 的 决策 边界 的 。 在 实验 的 第 
二 部 分 中 ,Xi 被 赋予 了 一 个 足够 大 的 值 ， 以 使 得 无 类 标 样本 对 算法 产生 完全 的 影响 。 

对 于 两 部 分 实验 ， 每 个 类 中 只 提供 了 两 个 类 标 数 据点 ， 一 个 类 代表 图 1.8 中 上 方 的 月 亮 ， 
另 一 个 类 代表 底部 的 月 亮 。 训 练 样本 的 总 和 ， 包 括 类 标 样本 和 无 类 标 样 本 有 N=1000 个 ; 测 
试 样本 的 数量 同样 有 1000 个 。 

(a) 内 在 正则 化 参数 ,A 一 0. 0001。 对 于 这 个 设置 ， 图 7.7 给 出 了 由 拉 普 拉 斯 RLS 算法 构造 
的 决策 边界 。 尽 管 对 赋 了 一 个 很 小 的 值 ， 这 已 显著 地 改变 了 由 RLS 算法 〈 即 大 一 0) 所 确定 的 
决策 边界 。 我 们 从 图 2. 2 和 图 2. 3 中 回忆 到 RLS 算法 的 决策 边界 是 一 条 具有 正 坡 度 的 直线 。 


10 15 20 





图 7.7 拉 普 拉 斯 RLS 算法 对 图 1. 8 中 的 双 月 分 类 ， 距 离 为 4 二 一 1， 每 个 类 中 的 两 
个 带 类 标 数 据点 用 符号 信和 〇 表示 。 内 正则 化 参数 41 二 0. 0001 

从 效果 上 看 ，1 000 个 测试 数据 中 总 共有 107 个 错误 分 类 ; 即 分 类 错误 率 是 10. 7%。 

(b) 内 正则 化 参数 ,4 一 0.1。 在 实验 的 第 二 部 分 中 ， 内 正则 化 参数 A 被 赋值 为 0.1， 因 
此 可 以 使 得 拉 普 拉 斯 RLS 算法 可 以 完全 地 利用 无 类 标 样 本 的 内 在 信息 内 容 。 类 标 信息 点 的 位 
置 与 实验 的 第 一 部 分 中 的 完全 相同 。 

为 了 实现 拉 普 拉 斯 RLS 算法 ， 我 们 在 式 (7. 118) 中 设置 了 一 个 29 =3 的 RBF 核 。 为 了 构 
造 本 身 ， 我 们 使 用 了 20- 最 近邻 图 。 实际 上 ， 为 了 此 目的 ，RBF 网 络 有 一 个 含 20 个 计算 结 点 
的 隐藏 层 。 

第 二 部 分 实验 的 结果 得 到 了 图 7. 8 所 示 的 网 络 配置 。 与 图 7.7 相 比 ， 我 们 看 到 在 参数 4: 一 
0.1 AlA;=0.0001 情况 下 ， 由 拉 普 拉 斯 RLS 算法 构造 的 决策 边界 有 显著 的 不 同 。 特 别 地 ， 两 
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TR ETH A AUB AS) 现在 被 没有 分 类 误差 地 分 离 了 。 这 个 结果 在 设置 d= 一 1 
时 最 为 明显 ， 两 个 类 的 样本 线性 地 分 离 了 ， 并 且 拉 普 拉 斯 RLS 算法 能 够 在 每 个 类 仅 用 两 个 带 
类 标 样本 的 情况 下 成 功 地 分 离 它们 。 拉 普 拉 斯 RLS 算法 的 这 个 显著 的 性 能 归 因 于 能 够 充分 地 
利用 两 个 类 的 无 类 标 数据 中 含有 的 信息 。 





7.8 ”对 图 1.8 中 的 双 月 图 用 拉 普 拉 斯 RLS 分 类 ， 距 离 为 4 一 一 1， 每 个 类 中 的 两 
个 带 类 标 数据 点 用 符号 信和 〇 表示 。 内 正则 化 参数 一 0. 1 
两 个 部 分 的 实验 清楚 地 证 明了 正则 化 外 部 形式 和 内 部 形式 的 折 中 ， 其 中 由 拉 普 拉 斯 RLS 
算法 所 示 的 半 监 督学 习 过 程 能 够 借助 相对 很 少 的 带 类 标 样本 ， 从 无 类 标 样本 完成 泛 化 。 
案例 研究 : 使 用 USPS 数据 进行 模式 分 类 
图 7.9 指出 了 RLS 和 拉 普 拉 斯 RLS 算法 对 于 实际 图 像 分 类 问题 ， 使 用 美国 邮政 服务 
(USPS) 的 数据 集 的 学 习 曲线 。 这 些 数据 集 包含 10 个 手写 数字 类 的 2007 个 图 像样 本 ， 其 中 每 
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一 日 一 拉 普 拉 斯 RLS 




















40 60 80 100 120 140 
带 类 标 数 据点 数 


图 7.9 对 USPS 数据 使 用 (a) RLS 算法 和 〈(b) 拉 普 拉 斯 RLS 算 法 (此 图 的 复制 得 
到 Vikas Sindhwani 博士 的 允许 ) 
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个 图 像样 本 用 一 个 256 维 的 像素 矢量 表示 。 对 于 此 十 个 类 中 的 每 一 个 类 ， 使 用 RLS 和 拉 普 拉 
斯 RLS 算法 分 别 训练 一 个 两 类 分 类 器 。 多 类 分 类 通过 选取 最 大 输出 的 类 来 实行 ， 即 用 一 类 对 
剩余 的 多 类 的 模式 分 类 。 图 7. 9 描绘 了 平均 分 类 误差 率 和 两 个 算法 作为 由 训练 集中 2007 个 样 
本 所 提供 的 带 类 标 样 本 的 函数 的 标准 差 。 图 7. 9 中 的 每 一 个 点 都 由 随机 选择 十 个 类 标 而 获得 。 
我 们 使 用 了 一 个 高 斯 RBF 核 。 对 于 式 (7. 118) 中 的 指数 ， 我 们 把 2c 设置 为 与 随机 从 训练 集中 
挑 出 的 样本 之 间 的 欧 几 里 得 距离 相同 。 对 于 拉 普 拉 斯 RLS， 我 们 使 用 10 个 近邻 图 来 构造 拉 普 
拉 斯 :使 用 的 正则 化 参数 为 X44 二 10“ 和 X= 二 0.01。 对 于 RLS， 在 许多 值 上 调试 ， 使 得 其 得 到 
一 个 如 图 7. 9 所 示 的 最 优 学 习 曲 线 。 图 7.9 中 所 示 的 结果 进一步 证 明了 ,与 RLS 算法 相 比 ， 
使 用 无 类 标 数据 显著 提升 了 拉 普 拉 斯 RLS 的 性 能 。 


7.17 小 结 和 讨论 


正则 化 理论 是 所 有 学 习 理 论 的 核心 。 在 本 章 ， 我 们 对 正则 化 理论 进行 了 详细 的 介绍 。 从 
Tikhonov 的 使 用 带 类 标 样本 用 于 监督 学 习 的 经 典 正 则 化 理论 开始 ， 到 应 用 于 使 用 带 类 标 样 本 
和 无 类 标 样本 的 半 监 督学 习 的 广义 正则 化 理论 结束 。 

Tikhonov 的 正则 化 理论 

在 其 最 基本 的 形式 中 ， 用 于 Tikhonov 的 正则 化 理论 的 泛 函 由 两 项 组 成 : 一 项 是 经 验 代价 
函数 ， 用 带 类 标 训练 样本 的 方式 定义 ; 另 一 项 是 正则 化 项 ， 用 应 用 于 逼近 函数 的 微分 算 子 定 
义 。 此 微分 算 子 作为 一 个 光滑 约束 ， 作 用 在 由 最 小 化 代价 函数 而 得 到 的 解 上 。 该 代价 函数 与 通 
近 函 数 的 未 知 参数 〈 权 值 ) 向量 有 关 。 这 个 最 优 解 的 重点 是 Green 函数 ， 其 作为 一 个 径 向 基 画 
数 网 络 的 核 。 然 而 ， 要 记 住 的 是 ， 对 网 络 复杂 性 的 约 减 成 为 决定 光滑 正则 化 算 子 的 关键 因素 。 

无 论 选 择 何 种 正则 算 子 ， 为 了 使 得 Tikhonov 的 正则 化 理论 的 优点 全 被 所 设计 的 正则 化 网 
络 所 使 用 ， 我 们 需要 一 个 估计 正则 化 参数 的 原则 性 的 方法 。7. 8 节 中 描述 的 广义 交叉 验证 过 程 
符合 这 个 特定 的 要 求 。 

半 监 督学 习 

随 着 对 监督 学 习 的 正则 化 理论 的 完整 学 习 ， 我 们 转 而 关注 半 监 督学 习 的 正则 化 。 这 是 使 用 
带 类 标 数据 和 无 类 标 数据 来 实现 的 。 代 价 函 数 现在 由 三 项 组 成 ， 

。 经 验 代价 函数 ， 由 带 类 标 实例 定义 。 

。 外 正则 化 项 ， 其 反映 了 下 近 函数 的 复杂 度 。 该 逼近 函数 需要 使 用 带 类 标 样本 。 

。 内 正则 化 项 ， 其 反映 了 用 来 产生 无 类 标 样本 的 输入 空间 的 内 在 几何 结构 。 

相应 地 ， 有 两 个 正则 化 产生 ， 一 个 是 在 外 正则 化 项 中 ， 另 一 个 在 内 正则 化 项 中 。 

相应 地 ， 有 两 个 正则 化 参数 ， 一 个 用 于 外 项 ， 另 一 个 用 于 内 项 。 

作为 广义 正则 化 理论 的 一 个 重要 实例 ， 我 们 使 用 带 类 标 实例 和 无 类 标 实例 来 考虑 最 小 二 乘 
估计 问题 。 通 过 使 用 一 个 包含 拉 普 拉 斯 算 子 和 表示 理论 泛 化 形式 的 应 用 的 核 光 滑 函 数 ， 我 们 可 
以 推出 一 个 闪 监 督学 习 的 正则 化 最 小 二 乘 估 计算 法 ; 这 个 算法 ， 称 为 拉 普 拉 斯 正则 化 最 小 二 乘 
算法 ， 有 两 个 重要 的 使 用 特性 : 

L 对 于 训练 ， 算 法 可 以 处 理 带 类 标 样本 和 无 类 标 样本 。 故 而 该 算法 拓宽 了 其 对 更 为 困难 
的 模式 识别 问题 的 应 用 。 

2. 通过 在 算法 公式 中 很 基本 的 光滑 函数 的 核 化 用 最 小 二 乘 估 计 ， 对 非 线性 可 分 模式 的 识 
别 变 得 更 为 可 行 。 

这 个 算法 的 实用 性 可 由 两 个 深刻 的 计算 机 实验 证 明 ， 一 个 包括 合成 数据 ， 另 一 个 包括 实际 
数据 。 
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在 Belkin 等 〈2006) 中 ,通过 拉 普 拉 斯 支持 向 量 机 (LapSVM) 推出 了 一 个 半 监 督学 习 算 
法 。 此 算法 能 够 成 功 地 测试 一 些 实际 的 数据 集 。 然 而 ， 算 法 需要 求 一 个 稠密 Gram CHOW, 
因此 会 使 得 计算 复杂 度 达 到 N 阶 ， 其 中 N 是 完全 的 训练 样本 数量 (包括 带 类 标 样本 和 无 类 标 
PEA); 另外 ， 就 像 标 准 的 支持 向 量 机 一 样 ， 我 们 仍然 要 解 一 个 二 次 规划 问题 ， 其 复杂 度 同样 
达到 了 N? 阶 。LapRLS 算法 的 复杂 度 上 要 比 LapSVM 简单 ， 因 为 在 其 公式 中 没有 二 次 规划 问 
题 。 更 为 重要 的 是 ， 实 验 结果 似乎 显示 了 这 两 种 半 监 督 机 器 学 习 的 性 能 很 相近 。 因 此 ， 从 实用 
的 角度 来 看 ，LapRLS 算法 对 于 求解 半 监 督学 习 问 题 是 一 个 更 好 的 选择 。 

然而 ，LapRLS 算法 的 计算 复杂 度 同样 是 N 阶 ， 这 是 因为 在 代价 泛 函 中 包括 了 内 项 

个 额外 的 高 的 计算 复杂 度 使 得 LapRLS 算法 很 难 应 用 于 包含 大 规模 数据 集 的 实际 问题 。 a 
发 可 用 于 大 规模 数据 的 半 监 督学 习 算法 在 当前 仍然 是 一 个 热门 的 话题 。 


注释 和 参考 文献 


L 从 诸如 一 个 病态 求 着 问题 的 实例 中 学 习 。 通 过 实例 的 机 器 学 习 会 违反 一 个 或 多 个 关于 和 良 态 问题 的 Had- 
amard 条 件 ， 这 使 我 们 把 学 习 过 程 看 作 一 个 病态 的 求 道 问 题 。 然 而 ， 从 严格 的 数学 角度 看 ， 学 习 理 论 和 病 
态 求 逆 问 题 理论 之 间 的 联系 并 非 直接 的 。 这 两 个 理论 的 数学 基础 是 不 网 的 ; 通常 ， 学 习 理 论 自然 上 看 是 内 
在 不 确定 的 〈 不 管 我 们 是 否 显 式 地 把 概率 理论 加 入 其 公式 中 )， 然 而 另 一 方面 ， 闭 问题 理论 可 以 被 看 作 是 一 
个 几乎 确定 的 问题 。DeVito 等 (2005〉 提 出 了 一 个 从 诸如 一 个 病态 求 逆 问 题 的 实例 中 学 习 的 直观 阐述 。 

2. 等 式 (7. 46) 的 验证 。 在 基本 项 中 ， 我 们 可 以 通过 单位 高 斯 沙 数 来 验证 等 式 (7. 46) 的 有 效 性 : 





Gz) = exp(— xz’) (A) 
其 是 一 维 的 , 二 1/2x。 基 本 上 ， 我 们 所 需要 的 是 ， 
= n 2r) Ə” _ 
Men a pee) = ela) (B) 


其 中 SGCz) 是 中 心 在 z=0 点 的 Dirac delta mR. 

要 验证 等 式 (B)， 最 方便 的 方法 就 是 研究 傅 里 叶 变换 CKammler, 2000) 的 基本 属性 。 特 别 地 ， 关 于 微分 属 
性 有 ， 

Gla) r ROR ER TE) RR, GÆ GA ida 的 博 里 叶 变 换 ， 其 中 是 空间 频率 ，i 是 一 1 的 
方 根 。 

由 健 里 叶 理 论 ， 我 们 同样 可 以 知道 在 数学 项 中 ， 单 位 高 斯 函数 是 其 自身 的 健 里 叶 变 换 。 特 别 地 ， 对 于 等 式 
(A) 中 的 G(x)， 我 们 有 : 





G(s) = exp(— ns’) (©) 
因此 ， 通 过 等 式 (B) 左 边 项 的 无 穷 级 数 求 和 的 傅 里 叶 变 换 ， 可 得 〈 简 化 后 的 项 ): 
Sep Bad” Cins) exp r?) = exp(— ms DÈ Szot D) 
p=0 p= 


这 个 等 式 (D) 右 端的 新 的 无 穷 级 数 为 在 可 以 被 认为 是 指示 exp(rs2) 的 一 系列 的 扩展 因此 ， 等 式 (D) 的 
右 端 项 实际 上 等 于 Dirac delta 函数 8(z) 的 单位 道 变换 。 则 等 式 (B) 的 验证 就 可 以 确立 。 
通过 等 式 (B) 的 一 维 情况 ， 我 们 可 以 通过 考虑 二 维 以 及 多 维 情况 ， 引 和 人 归纳 法 而 继续 验证 等 式 (7. 46) 。 

3. 正则 化 精确 插值 。 在 Yee 和 Haykin(2001) 中 ， 描 述 了 一 个 设计 RBF 网 络 的 方法 ， 其 包括 两 个 严密 的 
理论 : 
。 在 7.3 节 中 描述 的 精确 插值 的 正则 化 理论 。 
。 在 第 5 章 中 描述 的 核 园 归 估 计 理 论 。 
由 后 一 个 理论 ， 我 们 关注 Nadaraya- Watson 回归 估计 算 子 。 这 个 方法 提供 了 一 个 可 简单 编码 且 具 有 高 效 性 
能 的 解决 回归 和 模式 识别 问题 的 基本 策略 。 然 而 ， 此 方法 对 计算 量 的 要 求 较 高 ， 特 别 是 训练 集 的 规模 较 
大 时 。 

4. 广义 交叉 验证 。 为 了 从 通常 的 交叉 验证 得 到 广义 交叉 验证 ,我 们 先 考 感 在 Wahba(1990) 中 的 一 个 岭 回归 问 
题 (ridge regression problem) ; 

y= Xat e (A) 
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其 中 X 是 一 个 NXN 阶 的 输入 和 矩阵， 噪声 向 量 8 具有 零 均值 ， 且 其 协 方差 矩阵 等 于 a221。 对 XX 进行 奇异 值 
分 解 有 


X = UDVT 
SU UA V 是 正 交 矩阵 ，D 是 对 角 阵 。 令 
y= Ury 
B= V'a 
和 
g= U's (B) 
可 以 用 UD 和 VY 将 式 (A) 转 变 为 
y= Dpte 


选择 对 角 矩 阵 D( 注 意 不 要 与 微分 算 子 混淆 ) 使 其 奇异 值 成 对 出 现 。 这 样 就 有 一 个 正 交 和 矩阵 W， 使 WOW" 
ERRER, B 


an aa 
ana do Guy 
A = WDW7 = jay anya … Gn-3 
a az o æ 
它 的 对 角 线 元 素 为 常数 。 令 
z= Wy 
Y= Wp 
且 
E= We 
则 式 (B) 变 换 为 
z=AY+6& (C) 


Xt FRE D 具有 和 矩阵 “最 大 解 耘 ”(maximally uncoupled) fF, MEREN ARA “RARA” (maximally 
coupled) 行 。 
按照 上 述 变换 ， 我 们 可 以 陈述 广义 交叉 验证 等 价 于 将 式 (A) 所 示 的 岭 回归 问题 变换 为 式 (C) 所 示 的 最 大 耦合 
形式 ， 然 后 对 z 进行 一 般 的 交叉 验证 ， 最 后 将 其 变换 为 原 坐 标 系统 〈Wahba，19907 。 

5. 维基 百科 验证 。 对 于 一 个 别 啡 杯 变形 为 一 个 汽车 轮胎 的 连续 过 程 或 反 过 程 ， 可 访问 维基 百科 网 页 ， 并 搜索 
“ 同 构 ”。 


习题 


Green 函数 
7.1 薄板 样 条 函数 由 下 式 描 述 : 


(Ja 
对 于 某 个 o>0 及 rER。 
可 以 验证 使 用 此 函数 作为 一 个 平移 和 旋转 的 变形 Green BK. 
7.2 高 斯 孙 数 是 仅 有 的 可 因 式 分 解 的 径 向 基 函 数 。 利用 高 斯 函数 的 这 个 性 质证 明定 义 为 多 元 高 斯 分 布 的 
Green 函数 G(x,t) 可 分 解 成 : 


Gxt) = [I GG) 
其 中 x; 和 z; 是 mX1 维 向 量 x 和 tt 的 第 i 个 分 量 。 
7.3 在 第 5 章 中 ， 我 们 认为 三 种 径 向 基 函 数 ， 高 斯 函数 、 逆 超 二 次 函数 和 超 二 次 函数 ， 都 满足 Micchelli 定 
理 。 但 是 ，Green 函数 类 仅 包 含 前 两 个 径 向 基 函 数 。 解 释 为 何 Green RHA THK BK. 
正则 化 网 络 
7.4 考虑 代价 泛 函 : 
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7.5 


7.1 


7.8 


N mi 
pm 


2 
€(F*) = Dla- Jwc Il x; —t; | J +al| DF* ||? 
Ls 


它 用 到 至近 函数 : 
Fœ = >) wG- t ||) 
利用 Fréchet 微分 ， 证 明 当 
(GTrG 十 MG。) W = Gra 
Bt, RM ZKE ) 最 小 ， 其 中 NX mm 维和 矩阵 Gym, Xm 维和 矩阵 G, mX WU RK NX1 向 量 dy 


分 别 由 式 (7.53) 、 式 (7. 56) 、 式 (7. 54) 及 式 (7. 27) 定义 。 
考虑 一 个 定义 如 下 的 正则 化 项 : 


[gre | DEG || ?dx = Daf | D'F Cx) || ?dx 


k=0 


其 中 

a= 

k12 

线性 微分 算 子 D 由 梯度 算 子 Y 和 拉 普 拉 斯 算 子 V 定义 如 下 : 

D* = cy’) 
且 

D» = yy?) 

证 明 : 


~ 2k 
DFO) = >) for VF GO 
k=0 和， 


在 7.3 节 中 ， 我 们 由 式 (7.46) 的 关系 导出 了 关于 F(x) 的 式 (7.47)。 在 这 个 习题 中 我 们 希望 从 由 式 
(7. 46) 开 始 利用 多 维 傅 里 时 变换 导出 式 (7. 47)。 利 用 Green 函数 G(x) 的 多 维 傅 里 叶 变 换 的 定义 


G(s) = i G(x) exp(— is’x)dx 


完成 推导 ， 其 中 i 二 V 一 1，s 是 m 维 的 变换 变量 。 关 于 傅 里 时 变换 的 性 质 可 以 参考 相关 内 容 。 
考虑 式 (7. 78) 所 描述 的 非 线性 回归 问题 。 令 a 表示 和 矩阵 (G 十 4D "的 第 ik AIR. WA, HAC. 39) 
出 发 ， 证 明 回归 画 数 f(x) 的 估计 可 以 表示 为 
FX 一 SoC. x dy 

其 中 d, 是 对 应 于 模型 输入 x 的 输出 ， 且 

Ox) = ce | x— x || Jass R=12.0,N 
上 式 中 GC 上 上) 是 Green BRK. 
样 条 函数 是 分 段 多 项 式 逼 近 器 的 例子 (Schumaker，1981) 。 样 条 方法 的 基本 思想 如 下 : BTR 
域 用 节点 分 为 有 限 个 子 区 域 ; 节点 可 以 是 固定 的 ， 这 样 逼近 器 就 是 线性 参数 化 的 ; 节点 也 可 以 是 可 变 
的 ， 这 样 和 逼 近 器 就 是 非 线性 参数 化 的 。 在 这 两 种 情况 下 ， 在 每 一 个 逼近 区 域 中 使 用 一 个 阶 数 最 高 为 的 
多 项 式 ， 且 要 求 整个 函数 必须 是 n 一 1 次 可 微 的 。 多 项 式样 条 函数 是 相对 光滑 函数 ， 容 易 在 计算 机 上 存 


储 、 操 作 及 计算 。 
在 实际 使 用 的 样 条 函数 中 ， 三 次 样 条 函数 可 能 是 应 用 最 广泛 的 。 一 个 一 维 输入 的 三 次 样 条 函数 的 代价 泛 


函 定 义 如 下 : 











ED = 去》 [4 一 oo)] +4/™ [EP Jew 


其 中 4 在 样 条 函数 中 表示 光滑 性 参数 。 
(a) 验证 这 个 问题 解 f(x) 的 如 下 性 质 : 
CL) 两 个 相 续 的 2 节点 值 之 间 f(z) 是 一 个 三 次 多 项 式 。 
(2) f(x) 及 前 两 阶 导 数 都 是 连续 的 ， 除 其 二 阶 导 数值 在 边界 点 为 零 外 。 
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D 因为 色 (/) 有 唯一 最 小 值 ， 所 以 我 们 必须 有 : 
Eh, tag) > Ef) 
其 中 g 是 与 广 一 类 的 二 次 可 微 函 数 ，a ERLER. AEREE tag HEX a 的 函数 在 a 二 0 
局 部 最 小 。 因 此 , 证明: 
z 2 2 N 
[E (ELP) (EP) = La paoe 
上 式 是 关于 三 次 样 条 问题 的 欧 拉 拉 格 朗 日 方程 。 
7.9 式 (7.75) 定 义 了 最 小 二 乘 方法 的 Gram 矩阵 或 核 矩 阵 K, WERE K 是 非 负 定 的 。 
正则 化 最 小 二 乘 估计 
7.10 由 式 (7.57) 推 出 用 于 正则 化 最 小 二 乘 估计 的 式 (7. 65) 。 
7.11 证 明 等 式 (7.70)， 其 中 包括 数据 矩阵 X 和 预期 响应 向 量 d。 





半 监 督学 习 

7.12 ”从 带 类 标 样本 和 无 类 标 样本 中 学 习 是 一 个 可 逆 的 问题 。 证 明 此 论断 的 有 效 性 。 

光谱 图 理论 

7.13 在 7.13 节 中 ， 我 们 作出 了 如 下 论断 : 拉 普 拉 斯 矩阵 工 的 最 小 特征 值 是 零 。 使 用 式 (7. 113) 中 的 Rayleigh 
系数 来 证 明 此 论断 。 

广义 表示 定理 


7.14 在 式 (7. 122) 中 的 最 后 一 行 ， 我 们 使 用 了 表示 定理 的 如 下 性 质 ， 
N N 
{ Sak (5x, kax) Y = Dea (Cx Ox) 
i=} i=] 


证 明 此 性 质 。 

7.15 式 (7.120) 中 用 于 带 类 标 和 无 类 标 样本 的 表示 定理 和 式 (6. 83) 中 仅 用 于 带 类 标 样 本 的 表示 定理 具有 相同 
的 数学 形式 。 解 释 用 于 半 监 督学 习 的 表示 定理 如 何 包 含 了 用 于 监督 学 习 的 表示 定理 ， 且 后 者 是 前 者 的 
一 个 特例 。 

拉 普 拉 斯 正则 化 最 小 二 乘 算 法 

7.16 (a) 推出 式 (7. 124) 中 的 代价 泛 函 。 然 后 使 用 此 泛 函 去 推导 式 (7. 125) 中 的 最 优点 a 。 

(b) 详细 解释 此 最 小 点 如 何 包 含 用 于 带 类 标 样本 的 式 (7. 74) 的 最 小 点 。 且 后 者 是 前 者 的 一 个 特例 。 

7.17 ”比较 拉 普 拉 斯 正则 化 最 小 二 乘 算 法 的 计算 复杂 度 和 仅 使 用 带 类 标 样本 的 正则 化 最 小 二 乘 算 法 的 计算 复 
杂 度 。 

7.18 在 求解 最 小 二 乘 方法 时 ， 我 们 可 以 选择 使 用 常规 等 式 ， 或 是 用 7.6 节 中 讨论 的 表示 定理 。 然 而 ， 在 解 
关于 此 方法 的 半 监 督学 习 的 版 本 时 ， 表 示 定 理 是 正确 的 选择 。 解 释 此 论断 的 合理 性 。 

7.19 ”实现 拉 普 拉 斯 RLS 算法 需要 使 用 一 个 RBF 网 络 。 讨 论 无 类 标 样本 和 带 类 标 样 本 在 设计 此 网 络 的 隐藏 层 
和 输出 层 时 的 独特 作用 。 

计算 机 实验 

7.20 带 类 标 数 据点 的 集合 可 以 看 成 拉 普 拉 斯 RLS 算法 的 初始 化 条 件 。 像 这 样 ， 对 于 一 个 给 定 的 无 类 标 训练 
样本 ， 我 们 预期 由 算法 构造 的 决策 边界 依赖 于 带 类 标 数据 点 的 位 置 。 在 此 实验 中 ， 我 们 使 用 从 图 1.8 
中 的 双 月 构造 中 抽取 的 合成 数据 研究 此 相关 性 。 

(a) 每 个 类 一 个 带 类 标 数据 点 。 用 与 过 去 相同 的 条 件 ， 重 复 7. 16 节 中 的 计算 机 实验 ， 但 此 次 实验 探求 
决策 边界 是 如 何 被 两 个 带 类 标 数 据点 的 位 置 所 影响 。 其 中 这 两 个 数据 点 分 别 属于 两 个 类 。 

(b) 每 个 类 两 个 带 类 标 数据 点 。 用 于 (a) 相同 的 设置 ， 每 个 类 中 用 两 个 带 类 标 数据 点 ， 重 复 该 实验 。 

评价 你 此 次 实验 的 结果 。 
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本 章 组 织 

本 章 的 目的 是 描述 如 何 使 用 非 监督 学 习 来 实现 主 分 量 分 析 。 本 章 组 织 如 下 : 

8. 1 节 给 出 简介 ， 强 调 了 非 监督 学 习 的 本 章 。 

8.2 节 描 述 自 组 织 的 四 个 原则 : 自 增强 、 竞 争 、 协 作 和 结构 化 信息 。 这 些 原则 在 学 习 理解 
神经 网 络 中 特别 重要 。 在 视觉 系统 中 ， 这 些 自 组 织 特征 原则 的 作用 在 8. 3 节 中 讨论 。 

8.4 节 通过 使 用 扰动 理论 给 出 主 分 量 分 析 的 数学 背景 。 

接 下 来 的 两 节 解 决 两 个 基于 Hebb 的 在 线 学 习 算 法 ，8. 5 节 关 注 最 大 化 特征 滤波 器 《最 强 
的 主 分 量 的 提取 ) 的 Oja 规则 ，8.6 节 关 注 Oja 规则 的 泛 化 。8.7 节 中 ， 把 泛 化 规则 应 用 于 图 
像 压 缩 。 

8. 8 节 讨论 核 PCA 算法 ， 使 得 提取 输入 信和 号 的 高 阶 统 计量 成 为 可 能 。 离 阶 统计 量 包含 8.9 节 中 
讨论 的 自然 图 像 的 内 在 属性 。 为 了 能 够 以 较 好 的 计算 复杂 度 处 理 自然 图 像 的 模型 ，8. 10 节 中 描述 通 
过 广义 Hebb 算法 对 核 PCA 算法 自 适 应 的 修正 。8. 10 节 给 出 一 个 对 多 块 图 像 去 噪 的 实例 学 习 。 

8.11 节 是 本 章 的 总 结 和 讨论 。 


8.1 引言 


神经 网 络 的 一 个 重要 性 质 就 是 它们 从 环境 中 学 习 的 能 力 。 通 过 训练 ， 从 统计 的 意义 上 来 提 
升 性 能 。 除 了 在 第 7 章 中 讨论 的 半 监 督学 习 之 外 ， 前 面 的 章节 都 关注 监督 学 习 算 法 。 在 监督 学 
习 中 ， 训 练 样本 包含 一 组 有 输入 输出 的 样本 。 在 本 章 和 下 面 三 章 中 ， 我 们 采取 一 个 新 的 方向 : 
我 们 学 习 非 监督 学 习 算 法 。 

在 无 监督 学 习 中 ， 我 们 的 目的 是 使 用 无 类 标的 样本 ， 发 现 输入 数据 中 的 显著 模式 或 特征 。 
也 就 是 说 ， 神 经 网 络 依照 如 下 规则 : 

从 实例 中 学 习 且 不 带 教师 。 

无 监督 学 习 可 以 从 两 个 不 同 的 方面 考虑 : 

Ci) 自 组 织 学 习 ， 其 从 神经 生物 的 角度 考虑 。 特 别 地 ， 半 监督 学 习 算 法 伴随 着 一 系列 局 
部 行为 规则 ， 要 求 使 用 这 些 规则 计算 带 有 预期 性 质 的 输入 输出 映射 。 这 里 的 局 部 是 指 对 于 神经 
网 络 中 每 个 神经 元 突 触 权 值 的 调整 受到 神经 元 局 部 邻居 的 限制 。 在 此 环境 下 ， 用 于 自 组 织 学 习 
的 神经 网 络 模型 趋 于 神经 生物 学 结构 ， 使 得 网 络 组 织 与 人 脑 相 似 。 

(i) 统计 机 器 学 习 理 论 ， 这 是 传统 机 器 学 习 的 方法 。 在 神经 网 络 中 强调 的 局 部 学 习 的 概 
念 在 机 器 学 习 中 起 到 次 要 的 作用 。 相 反 ， 在 统计 机 器 学 习 中 ， 更 强调 数学 工具 。 

在 本 章 中 ， 我 们 从 这 两 方面 学 习 主 分 量 分 析 (PCA).'PCA 是 可 以 广泛 用 于 统计 模式 识别 
和 信号 处 理 中 维 数 约 减 的 标准 工具 。 


8.2 BAAR 
原则 1 自 增强 
自 组 织 第 一 个 原则 就 是 ; 
神经 元 突 触 权 值 的 修正 随 着 Hebb 条 件 学 习 自 增强 ， 这 使 得 突 触 可 塑性 有 了 可 能 。 
在 单个 神经 元 中 ， 自 增强 的 过 程 ， 受 到 以 下 约束 : 对 神经 元 突 触 权 值 的 修正 基于 在 局 部 区 域 可 
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获得 前 突 触 和 后 罕 触 信号 。 特 别 地 ， 自 增强 和 局 部 的 要 求 通过 强 突 触 导 致 前 突 触 和 后 突 触 信号 的 发 
生 规 定 了 一 个 反馈 机 制 。 相 应 地 ， 该 突 触 的 强度 通过 此 也 增强 了 。 此 机 制 是 Hebb 学 习 的 本 质 。 

基于 Hebb 假定 的 学 习 是 所 有 学 习 规 则 中 最 老 的 和 著名 的 。 它 是 为 了 纪念 神经 生物 学 家 
Hebb (1949)。Hebb 的 书 《 自 组 织 行为 》(1949) 有 如 下 的 描述 Cp. 62); 


当 一 个 神经 元 细胞 A 足够 近 地 反 复 且 持续 地 激活 细胞 B， 一 些 增长 过 程 或 新 陈 代谢 会 发 
生 ， 使 得 A 作为 其 中 一 激活 的 细胞 ， 其 有 效 性 增强 。 


Hebb 假定 此 在 相关 学 习 的 基础 上 《在 细胞 层次 上 ) 的 变化 ,会 导致 对 在 空间 上 分 布 的 相 
似 的 神经 细胞 的 激活 模式 持续 地 修正 。 

这 个 关于 Hebb 假定 的 学 习 的 论断 是 基于 一 个 神经 生物 学 背景 下 的 。 我 们 可 以 对 其 扩展 成 
两 个 规则 (Stent, 1973; Changeux and Danchin, 1976): 

L 如 果 两 个 神经 元 中 的 一 个 突 触 连接 是 同时 激活 的 〈 即 同步 的 )， 则 突 触 的 强度 会 选择 性 
地 增强 。 

2. 如 果 两 个 神经 元 中 的 一 个 突 触 是 异步 激活 的 ， 则 突 触 会 选择 性 地 减 能 或 消除 。 

这 样 一 个 突 触 叫做 Hebb 突 触 。 (原始 的 Hebb 规则 不 包括 2.) 更 准确 地 说 ， 我 们 定义 一 
个 Hebb 突 触 ， 使 用 依赖 时 间 的 、 高 度 局 部 性 的 、 强 交互 的 机 制 来 提高 作为 前 突 触 和 后 突 触 相 
关 性 的 函数 的 突 触 的 有 效 性 。 从 此 定义 中 ,我 们 可 以 推断 出 以 下 四 个 表示 Hebb 学 习 特征 的 关 
键 机 制 (Brown 等 ，1990) : 

1. 依赖 于 时 间 的 机 制 。 此 机 制 表 示 对 Hebb 突 触 的 修改 依赖 于 前 突 触 和 后 突 触 信号 发 生 的 
准确 时 间 。 

2. 局 部 机 制 。 一 个 突 触 自然 地 提供 了 在 时 空 连 接 中 的 信息 信号 的 变换 。 局 部 的 可 获得 的 
信息 可 通过 Hebb 突 触 产生 一 个 与 输入 有 关 的 局 部 突 触 的 修正 。 

3. LAMA, Hebb 突 触 的 变换 的 发 生 依赖 于 突 触 每 边 的 信号 。 这 就 是 说 ，Hebb 学 习 依 
赖 于 前 突 触 和 后 突 触 信号 之 间 的 交互 ， 在 此 意义 下 ,我们 不 能 通过 这 两 个 突 触 本 身 作出 预测 。 
注意 到 这 种 依赖 或 交互 关系 在 本 质 上 是 确定 的 和 静态 的 。 

- 4, FRA MAMA. MIF Hebb 假定 的 学 习 的 一 种 解释 就 是 对 于 突 触 有 效 性 的 改变 的 
条 件 是 前 穴 触 或 后 突 触 信号 的 共 二 。 因 此 ， 根 据 此 解释 ， 前 突 触 和 后 突 触 信号 的 发 生 《〈 在 一 个 
短暂 的 间隔 内 )， 已 足够 产生 突 触 修正 。 基 于 此 原因 ，Hebb 突 触 有 时 也 被 称 为 共 轿 突 触 。 对 
于 基于 Hebb 假定 的 学 习 的 另 一 个 解释 ， 我 们 可 以 考虑 交互 机 制 在 统计 的 意义 上 是 Hebb 突 触 
的 重要 特征 。 特 别 地 ， 前 突 触 信号 和 后 突 触 信和 号 之 间 的 相关 性 被 认为 与 突 触 变 化 有 关 。 相 关 性 
实际 上 是 学 习 的 基础 (Chen 等 ，2007)。 

在 数学 意义 上 推导 Hebb 学 习 的 表达 式 ， 考 虑 神经 元 上 关于 前 突 触 和 后 突 触 信号 的 突 触 权 

值 ， 其 分 别 记 为 z; 和 y:。 对 于 突 触 权 值 在 nr 时间 的 调整 由 如 下 通用 公式 表达 : 
| Awy Cn) = fy ln) ,x(n)) (8. 1) 
其 中 fC,") 是 一 个 关于 前 突 触 和 后 突 触 信号 的 函数 。 信 号 x;(n) 和 y(n) 通 常 被 认为 是 没有 维 
数 的 。 式 (8.1) 有 许多 的 形式 : ， 全 部 都 是 Hebb MH. 因此， 在 式 (8.2) 中 ， 我 们 考虑 最 简单 的 

Hebb 学 习 形式 : 

Awy (n) = pim x; (n) (8. 2) 
其 中 7 是 正常 量 ， 用 于 确定 学 习 率 。 式 (8.2) 清 晰 地 强调 了 Hebb 突 触 的 相关 性 。 这 有 时 称 为 
激活 乘法 规则 。 从 式 (8.2) 中 ， 我们 看 见 输入 信和 号 1 (前 罕 触 激活 ) 的 反复 应 用 导致 了 y 的 增 
强 。 因 此 ， 指 数 性 的 增长 最 终 导 致 了 突 触 连 接 的 饱和 。 在 此 时 ， 在 突 触 中 并 不 存储 新 的 信息 ， 
选择 性 也 消失 了 。 因此 需要 一 些 机 制 来 稳定 神经 元 的 自 组 织 行为 。 这 就 要 考虑 到 第 二 个 原则 。 
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原则 2 竞争 原则 

第 二 个 自 组 织 原 则 如 下 : 

可 用 资源 的 局 限 性 ， 以 一 种 或 另 一 种 的 形式 ， 导 致 单 个 或 一 群 神经 元 的 突 触 之 间 的 竞争 。 
这 个 结果 使 得 最 强健 增长 的 突 触 或 神经 元 是 以 其 他 神经 元 作为 代价 的 。 

第 二 个 原则 通过 突 触 可 塑性 实现 〈 即 突 触 权 值 的 可 调整 性 ) 。 

为 了 使 一 个 给 定 的 神经 元 趋 于 稳定 ， 它 的 突 触 之 间 必 须要 有 对 有 限 资 源 〈 如 能 量 ) 的 竞 
争 ， 以 此 方式 ， 神 经 元 中 一 些 突 触 的 增强 被 其 他 突 触 的 减弱 所 弥补 。 相 应 地 ， 只 有 最 成 功 的 突 
触 的 强度 可 用 于 增长 。 那 些 不 成 功 的 突 触 就 会 趋 于 减弱 ， 而 最 终 消失 。 

在 神经 网 络 的 级 别 ， 一 个 相似 的 竞争 过 程 可 能 会 通过 以 下 过 程 发 生 (Rumelhart and 
Zipser, 1985): 

。 神经 网 络 中 的 神经 元 都 相同 ， 除 了 一 些 随机 分 布 的 突 触 权 值 ， 因此， 神经 元 对 于 给 定 

的 输入 模式 的 响应 是 不 同 的 。 
。 在 神经 网 络 中 的 每 个 神经 元 的 强度 〈 即 突 触 权 值 的 总 和 ) 都 被 附加 了 一 个 特定 的 限制 。 
。 神经 元 之 间 对 于 一 个 输入 集 按 照 给 定 的 规则 互相 竞争 ， 因 此 ， 每 一 次 只 有 一 个 输出 神经 元 ， 
或 每 组 中 只 有 一 个 神经 元 是 激活 的 。 那 些 赢得 竞争 的 神经 元 叫做 “ 胜 者 全 得 ”神经 元 。 

我 们 因此 发 现 ， 通过 这 些 竞 争 学 习 过 程 ， 网 络 中 的 个 体 神 经 元 对 于 不 同类 的 输入 模式 承担 
了 特征 探测 的 作用 。 

在 Hebb 学 习 中 ， 神 经 网 络 中 一 些 输 出 神经 元 可 能 会 被 同时 激活 ， 在 竞争 学 习 的 任何 时 候 
仅 一 个 输出 神经 元 或 每 组 中 一 个 输出 神经 元 是 激活 的 。 竞 争 学 习 中 的 这 个 特征 使 得 其 非常 合适 
发 现 统计 上 突出 的 特征 ， 这 可 以 被 用 来 分 类 输入 模式 。 
原则 3 协作 

自 组 织 的 第 三 个 原则 如 下 : 

在 神经 网 络 和 网 络 的 神经 元 级 别 中 ， 对 突 触 权 值 的 修改 趋 于 互相 合作 。 


由 于 突 触 可 塑性 或 由 于 在 外 部 环境 中 的 适当 条 件 的 存在 而 使 得 前 突 触 神经 元 同时 激活 ， 而- 
产生 协作 。 

考虑 到 单个 神经 元 的 第 一 种 情况 ， 单 个 的 罕 触 不 能 有 效 地 产生 有 利 的 事件 。 因 此 ， 必 须 有 
神经 元 突 触 之 间 的 协作 ， 才 能 够 产生 足够 强 的 激活 神经 元 的 信号。 

在 网 络 层 次 ， 协 作 可 能 会 通过 一 组 激活 的 神经 元 之 间 的 侧 向 交互 而 产生 。 特 别 地 ， 一 个 激 
活 的 神经 元 更 有 可 能 促进 它 近 邻 的 神经 元 而 不 是 离 它 较 远 的 神经 元 。 在 一 段 时 间 后 ， 我 们 发 现 
通过 一 系列 小 的 变化 ， 一 个 协作 系统 会 趋 于 稳定 状态 。 1 

同样 也 要 注意 到 在 自 组织 系 统 中 ， 会 同时 出 现 竞 争 与 协作 ， 然 而 竞争 总 是 优先 于 协作 。 
原则 4 结构 化 信息 

第 四 条 ， 也 即 最 后 一 条 原则 如 下 : 

在 一 个 输入 信号 中 存在 的 潜在 次 序 和 结构 代表 了 宛 余 的 信息 ， 其 通过 一 个 自 组 织 系统 以 知 
识 的 形式 获得 。 

因此 ， 可 以 说 包含 在 输入 数据 中 的 结构 化 信息 是 自 组 织 学 习 的 前 提 和 条件。 同样 ， 也 需要 注意 ， 
自 增强 、 竞 争 、 协 作 是 在 神经 元 或 神经 网 络 中 的 过 程 ， 结 构 化 信息 或 元 余 是 输入 信号 的 内 在 性 质 。 

比如 说 ， 我 们 考虑 --- 个 声音 或 视频 信号 。 当 这 样 一 个 信号 以 高 比率 取样 ， 则 样本 信和 号 相应 
地 会 呈现 出 较 高 程度 的 相关 性 。 这 里 的 相关 性 是 指 平均 的 ， 信 号 从 一 个 样本 到 另 一 个 之 间 的 变 
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化 并 不 剧烈 。 这 也 意味 着 这 些 信 号 含有 结构 化 的 宛 余 信息 。 换 句 话说， 相关 性 是 结构 化 和 宛 余 
的 同义词 。 

要 评价 结构 化 的 重要 性 ， 我 们 假定 包含 在 一 个 信号 中 所 有 宛 余 信息 都 完全 去 除了 。 所 剩 下 
的 只 是 不 可 预测 的 非 完 余 信息 ， 因 此 这 些 信 息 可 能 无 法 与 噪声 区 分 开 。 考 虑 到 这 种 类 型 的 输 
入 ， 非 自 组 织 或 非 监督 学 习 系 统 会 起 到 作用 。 
总 结 和 附注 

基于 神经 生物 的 自 组 织 规则 适用 于 神经 网 络 中 的 非 监督 训练 ， 但 对 于 更 为 通用 的 用 于 执行 
非 监督 学 习 任务 的 机 器 学 习 却 并 不 是 必要 的 。 在 任意 的 学 习 任务 中 ， 非 监督 学 习 的 目标 是 建立 
一 个 模型 ， 使 其 适合 于 一 组 无 类 标 数 据 ， 使 数据 中 的 潜在 结构 能 够 很 好 地 表示 出 来 。 但 为 了 使 
模型 能 够 实现 ， 数 据 必须 是 结构 化 的 。 


8.3 自 组 织 的 特征 分 析 


视觉 系统 中 的 信息 处 理 是 分 阶段 的 。 具 体 地 ， 一 些 简 单 的 特征 如 对 比 度 和 边缘 方向 是 在 系 
统 的 早期 阶段 分 析 的 ， 而 更 精致 复杂 的 特征 则 在 后 期 阶段 进行 分 析 。 图 8. 1 表示 与 视觉 系统 相 
似 的 模型 网 络 的 整体 结构 。 在 Linsker 的 模型 中 ， 图 8. 1 的 网 络 神 经 元 组 织 成 二 维 层 ， 从 一 层 
到 下 一 层 具有 局 部 前 馈 连 接 。 每 个 神经 元 只 接受 前 一 层 位 于 一 个 覆盖 区 内 有 限 数目 神经 元 的 信 
息 ， 此 区 域 称 为 接受 域 (receptive field)。 网 络 接受 域 在 突 
触 的 形成 过 程 中 起 关键 作用 ， 因 为 它们 使 一 层 中 的 神经 元 对 
前 一 层 神 经 活动 的 空间 相关 性 的 反应 成 为 可 能 。 假 设 下 面 两 
个 结构 特征 : 

1. 在 整个 神经 元 形成 过 程 中 ,一旦 突 触 连接 被 选择 ， 其 
位 置 就 固定 了 。 

2. 每 个 神经 元 都 是 一 个 线性 组 合 器 。 
模型 结合 Hebb 型 突 触 修改 的 协作 和 竞争 学 习 的 方面 使 得 网 络 
输出 最 优 地 区 分 输入 总 体 ， 这 需要 通过 自 组 织 学 习 从 一 层 到 一 
层 的 基础 上 处 理 。 即 学 习 过 程 在 处 理 下 一 层 之 前 允许 全 面 形成 
该 层 自身 的 自 组 织 特 征 一 分 析 (feature analyzing) 特性 。 

在 Linsker 模型 中 模拟 结果 与 猫 和 猴子 的 视觉 形成 的 早 
期 具有 非常 相似 的 性 质 。 认 识 到 视觉 系统 的 高 度 复杂 性 ， 而 
Linsker 考虑 的 非常 简单 的 模型 却 能 形成 相似 的 特征 -分 析 神 
经 元 ， 这 的 确 值得 注意 。 这 并 非 意味 着 哺乳 动物 的 视觉 系统 
的 特征 一 分 析 神 经 元 形成 的 方式 与 上 面 的 Linsker 模型 描述 
的 方式 完全 相同 。 相 反 ， 它 只 能 说 明 按照 Hebb 学 习 规 则 形 
成 突 触 权 值 ， 再 由 这 种 相对 简单 的 层 状 网 络 就 可 产生 这 种 结 








图 8. 1 Linsker 模型 的 自 适应 层 ， 
构 ， 因 此 对 自 组 织 原则 提供 了 实用 的 证 明 。 各自 的 领域 都 有 重 全 


8.4 主 分 量 分 析 : 扰动 理论 . 


在 统计 模式 识别 中 ， 一 个 常见 的 问题 就 是 特征 选择 或 特征 提取 。 特 征 选择 是 指 将 数据 空间 
变换 到 特征 空间 的 过 程 ， 在 理论 上 与 原始 数据 空间 具有 相同 的 维 数 。 然 而 ， 我 们 希望 设计 一 种 
变换 使 得 数据 集 由 维 数 较 少 的 “有 效 ” 特 征 来 表示 ， 而 不 减少 原始 数据 所 包含 的 内 在 信息 内 
容 ; 换 名 话说， 数据 集 进 行 了 维 数 压缩 。 具 体 来 说 ,假设 有 一 个 m 维 的 向 量 x， 希 望 压缩 到 / 
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维 ， 其 中 1<m。 如 果 我 们 简单 截断 x， 所 带 来 的 均 方 误差 等 于 省 掉 的 各 分 量 的 方差 之 和 。 因 此 
提出 下 面 的 问题 : 


是 否 存在 一 个 可 递 的 线性 变换 了 T， 使 得 对 Tx 的 截断 在 均 方 误差 意义 下 最 优 ? 


显然 要 求 变换 工 后 的 某 些 分 量具 有 和 较 低 的 方差 。 主 分 量 分 析 (principal components analysis, 
在 通信 理论 中 也 叫 Karhunen-Loeve 变换 ) 能 最 大 限度 地 减少 方差 .并 因而 是 正确 的 选择 。 在 
本 章 我 们 讨论 基于 Hebb 学 习 算 法 来 完成 数据 向 量 的 主 分 量 分 析 。 
令 义 为 表示 环境 的 m 维 随机 向 量 。 假 设 六 均值 为 零 ， 即 . 
ELX] = 0 
其 中 是 统计 学 习 中 的 期 望 运算 符 。 如 果 辟 的 均值 不 是 0， 在 执行 分 析 之 前 先 减 去 其 均值 。 
今 q 表示 m 维 单位 向 量 ，X 在 其 上 投影 。 这 个 投影 被 定义 为 向 量 X 和 gd 的 内 积 ， 表 示 为 : 
A = X"q = qX (8. 3) 
其 满足 约束 条 件 : 
lall = (q7 一 1 (8. 4) 
投影 A 也 是 随机 变量 ， 其 均值 和 方差 与 站 的 统计 有 关 。 由 假设 X 的 均值 为 0， 推 知 4 的 
ELA] = q” EEX] = 0 
方差 与 其 均 方 值 相 同 ， 可 写 为 : 


o = ELA’ ] = EL[(q?X)(X7q) ] =q FXX "la=q Rg © (8. 5) 
mXm 矩阵 RRL XH BAH, CRAB 和 和 它 自己 的 外 积 的 期 望 ， 表 示 为 : 
及 一 ELXX (8. 6) 
我 们 观察 到 相关 矩阵 R 是 对 称 的 ， 即 
R'=R 
由 这 个 性 质 知 ， 如 果 a 和 上 b HER mX 向 量 ， 那么 
a’ Rb = b’Ra (8.7) 
由 式 (8. 5) 看 出 ， 投 影 A 的 方差 mo 是 单位 向 量 q 的 函数 ， 可 以 写 为 : 
ya =o = q'’Rq (8. 8) 
基于 此 我 们 可 以 认为 y(q) 为 方差 探 针 (variance probe), 


主 分 量 分 析 的 特征 结构 

下 面 讨论 的 问题 是 在 欧 几 里 得 范 数 的 约束 条 件 下 ， 找 出 单位 向 量 a E y(q) 所 具有 的 极 值 
(extremal) 或 稳定 值 (stationary) (局 部 最 大 或 最 小 )。 这 个 问题 的 解决 依赖 于 输入 向 量 的 相 
SHER 的 特征 结构 。 如 果 q 为 单位 向 量 使 得 方差 探 针 (DAA, MAN BMA E q E 
意 小 的 扰动 6q， 我 们 发 现 直 到 oq 的 一 阶 项 将 有 

g(a +a) = pq) 
现在 ， 从 式 (8.8) 给 出 的 方差 探 针 定 义 ， 我 们 有 
g(q+éq) = (q+ 8g Rq + òq) = q Rq+2(C6g) Rq 十 (8q) 7 Rdq 
在 第 2 个 等 式 中 ， 已 经 利用 式 (8. 7). AM (dq) Rog 并 利用 式 (8. 8) 的 定义 ， 可 以 写成 ， 


Agq 十 6q) = q7Rq 十 2(6q)7Rq = plq) +2 "Rg (8.9) 
0Cq 十 8q) 是 y(9) 的 一 阶 近似 ;因此 我 们 有 : 
(dq)? Rq = 0 (8. 10) 


对 q 而 言 ， 任 意 扰动 og 是 不 允许 的 ， 相 反对 扰动 进行 限制 ， 仅 使 q 十 6q 的 欧 几 里 得 范 数 
为 1 的 扰动 是 允许 的 ， 即 : 
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1g+eql =1 
或 等 价 地 : 
(q 十 6q)5Cq 十 8q) = 1 

因此 ， 根 据 式 (8. 4)， 我 们 要 求 对 6q 的 一 阶 项 有 : 

(8q)7q = 0 (8. 11) 

这 意味 着 ， 扰 动 6q 必须 与 q 正 交 ， 因 此 仅 在 q 的 垂直 方向 上 变化 是 允许 的 。 

通常 单位 向 量 gq 在 物理 意义 上 是 无 量 纲 的 。 从 而 如 果 结 合式 (8. 10) 和 式 (8. 11)， 那 么 我 们 必须 
在 式 (8. 11) 中 引入 一 个 比例 因子 使 得 它 和 相关 和 矩阵 R 中 的 元 素 有 相同 的 量 纲 。 于 是 可 以 写成 * 

(8q) Rq — A(dq)7q = 0 

RENT: 

Cq)” Rq — àg) = 0 (8.12) 

式 (8. 12) 成 立 的 充 要 条 件 为 ; 

Rq = Ag (8. 13) 

这 个 方程 控制 单位 向 量 q 使 得 方差 探测 值 y(q) 有 极 值 。 

式 (8. 13) 被 认为 是 特征 值 问 题 ， 通 常 在 线性 代数 中 碰 到 (Strang,1980)。 仅 对 特殊 的 4 值 
问题 有 非 平凡 解 〈 即 40), A RAR ARES R 的 特征 值 ， 对 应 的 q 被 称 为 特征 向 量 。 相 关 
和 插 阵 的 特征 值 必 须 是 非 负 数 。 假 设 它 的 特征 值 互 不 相同 ， 则 对 应 的 特征 向 量 是 唯一 的 。 令 mXm 
和 矩阵 R 的 特征 值 为 1 Aree ,Xs， 对 应 的 特征 向 量 分 别 是 qd geod, 。 我 们 可 写成 : 


Rq; =A;4> j=l, 2em (8. 14) 
令 相 应 的 特征 值 按 降序 排列 ， 即 : 
Ay D> Ag Dt Ay Dt An (8. 15) 
这 样 入 二 Aw。 令 对 应 的 特征 向 量 用 于 构成 一 个 mXm 矩阵: 
Q= [qq qq] (8. 16) 
我 们 可 以 结合 式 (8. 14) 中 的 m 个 方程 为 一 个 方程 组 : 
RQ = QA (8.17) 
其 中 A 为 及 的 特征 值 构成 的 对 角 和 矩阵 ， 即 : 
A = diaglar am] (8. 18) 
ME Q 是 正 交 (A) #4, RRACHWAR IRMA) 满足 正 交 条 件 : 
l, j=i 
qq = 人 (8. 19) 
式 (8. 19) 要 求 不 同 的 特征 值 。 等 价 地 ， 可 写成 ， 
QQ=I 
由 此 可 以 推导 出 矩阵 Q MRR SC MRE, BH: 
l QT = Q“ (8. 20) 
这 意味 着 可 以 重 写 (8. 17) 为 众所周知 的 正 交 相似 变换 形式 : 
QIRQ 一 人 (8. 21) 
或 展开 为 : 
àj k=] 
q; Rg. = 0, kx; (8. 22) 


30 (8. 21) 的 正 交 相似 CB) ROH RE RAMEE. RERE R 可 以 用 特 
征 值 和 特征 向 量 表示 为 : 
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R= MiqiqF = QAQ’ (8. 23) 


这 称 为 谱 定 理 。 对 所 有 i， 外 积 qigf 的 秩 为 1。 式 (8. 21) 和 式 (8. 23) 是 相关 矩阵 R 的 特征 分 解 
的 两 个 等 价 表示 。 
EDD OT AAR R 的 特征 分 解 从 根本 上 来 说 是 一 致 的 ， 只 是 从 不 同 的 角度 观察 问题 。 
ARG. 8) 和 式 (8. 22) 可 以 看 出 方差 探 针 和 特征 值 的 确 相 等 ， 表 示 为 ， 
Wa) =à j=1,2,.,m (8. 24) 
现在 ， 从 主 分 量 分 析 的 特征 结构 中 可 以 概括 两 个 重要 发 现 ， 
。 零 均值 的 随机 向 量 X 的 相关 和 矩阵 R 的 特征 向 量 定义 为 单位 向 量 q; ， 代 表 主 方向 ， 沿 着 
它们 方差 探 针 y(qj) 取 得 极 值 。 
。 相应 的 特征 值 定义 方差 探 针 y(qj) 的 极 值 。 
基本 数据 表示 
令 数 据 向 量 x 为 随机 向 量 XX 的 实例 。 用 a 表示 随机 变量 A 的 一 个 实例 。 
由 于 单位 向 量 q 有 x 个 可 能 的 解 ， 我 们 发 现 数 据 向 量 x 有 m 个 可 能 的 投影 需要 考虑 。 特 
别 地 ， 从 式 (8. 3) 我 们 注意 到 : 
a; = Q X = Xq; j=1,2, sm (8. 25) 
其 中 w 是 x 在 单位 向 量 q 所 表示 的 主 方向 上 的 投影 。a; 称 作 主 分 量 ， 与 向 量 x 具 有 相同 的 物 
HEH., RG. 25) 的 公式 被 看 作 是 一 个 分 析 。 
为 了 从 投影 w 中 准确 重建 原始 数据 向 量 x， 我 们 可 以 采取 下 面 的 步骤 。 首 先 ， 将 一 组 投影 
Lali = 1,2,…,m } 组 合成 一 个 单一 的 向 量 ， 表 示 为 : 
a = [ai az san |) = Lx’ qi ,x qz ,XT dn |? = Qx (8. 26) 
接着 在 式 (8. 26) 的 两 边 左 乘 矩 阵 Q， 再 利用 式 QQ' 一 I 的 关系 。 因 此 ， 原 始 数 据 向 量 x 可 
重建 为 : 
x= Qa= Pag (8. 27) 
它 可 被 看 成 合成 公式 。 在 这 种 意义 上 ， 单 位 向 量 gy 表示 数据 空间 的 一 组 基 。 确 实 ， 式 (8. 27) 
只 是 一 个 坐标 变换 ， 根据 该 变换 数据 空间 中 的 点 x 变换 到 特征 空间 的 点 a。 
维 数 约 减 
从 统计 模式 识别 的 观点 看 ， 主 分 量 分 析 的 实际 价值 在 于 它 为 维 数 约 减 提 供 有 效 的 方法 。 具 
体 地 讲 ， 通 过 丢弃 式 (8. 27) 中 方差 小 的 项 ， 保 留 方差 大 的 项 ， 可 以 减少 有 效 数据 表示 所 需 的 特 
征 的 数量 。 令 入 ,X42，… ,表示 相关 和 矩阵 R 的 前 /个 最 大 特征 值 。 我 们 截断 式 (8, 27) 中 的 项 后 
面 的 展开 式 可 以 得 到 数据 向 量 x 的 近似 : 
x= Sag = [q ,qq É ’ l<m (8. 28) 
a 
对 给 定 的 原始 数据 向 量 x， 可 以 用 式 (8. 25) 计 算得 到 保留 在 式 (8. 28) 中 的 主 分 量 如 下 : 
a, qi 
az] qf 


x, lm (8. 29) 


T 
at qi 
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JAR” BUR’ 的 线性 投影 〈 即 从 数据 空间 到 特征 空间 的 映射 ) 是 对 数据 向 量 x 近 似 表示 的 
编码 器 ， 如 图 8. 2a 所 示 。 相 应 地 ， 从 RR' SR" 的 线性 投影 〈( 即 特征 空间 到 数据 空间 的 上 映射) 
表示 为 对 原始 数据 向 量 x 近似 重 构 的 解码 器 ， 如 图 8. 2b 所 示 。 注 意 式 (8. 28) 和 式 (8. 29) 中 撒 
述 的 优势 〈 即 最 大 ) 特征 值 A ,42，… ,4 并 不 参加 计算 ， 它 们 只 是 分 别 决定 编码 器 和 解码 器 所 
使 用 的 主 分 量 的 数量 。 














a) b) 


图 8.2 主 分 量 分 析 的 两 阶段 说 明 ，a) 编码 ; b) 解码 
逼近 误差 向 量 e 等 于 原始 数据 向 量 x MEUM. Bi: 
e=x— Å (8. 30) 
将 式 (8. 27) 和 式 (8. 28) 代 入 式 (8. 30) 得 到 : 


e= Jaq: (8. 31) 
误差 向 量 e 和 逼近 数据 向 量 & 是 正 交 的 ， 如 图 8. 3 AR. RAB, RA e 的 内 积 为 零 。 利 
用 式 (8. 28) 和 式 (8. 31)， 这 个 性 质 可 以 表示 如 下 : 


= die a Yaa = D Daaa = 0 对 1 过 m (8. 32) 


i=H1 j=l 


SIA SRC HA Th (8. 32) 称 作 正 交 性 原理 。 
由 式 (8. 8) 和 式 (8. 22) 的 第 一 行 ， 数 据 向 量 x hm POR 


0 To 
总 方差 为， ~ ' 


其 中 of 是 第 7 TEME a, EEN BAHR AERAN 图 8.3 向 量 x、 它 的 重建 形式 


BH: 和 误差 向 量 。 的 关系 示例 
Da = ya (8. 34) 

FER By x— SP MIER 总 方差 为， 
DE 一 Sia l (8. 35) 


j=l 


PIETE Ari ott Am 是 相关 矩阵 了 的 特征 值 中 最 小 的 (m—1) 个 特征 值 ， ATEA EEH 
BRG 28) 中 丢弃 了 它们 所 对 应 的 项 。 这 些 特 征 值 越 接 近 0， 降 维 (对 x 进行 主 分 量 分 析 
所 导致 的 结果 ) 后 保存 原始 数据 中 的 信息 量 就 越 有 效 。 因 此 ， 为 了 对 输入 数据 进行 维 数 约 减 ， 
RM: 

IARAA E AA AE E AEE, E E R e t EAR E A e EET 
应 的 特征 向 量 生成 的 子 空 间 。 


这 种 数据 表示 方法 通常 称 为 子 空间 分 解 “Oja,1983)。 
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例 1 双 变 量 数据 集 

为 了 说 明 主 分 量 分 析 的 应 用 ， 考 虑 双 变 量 (二 维 ) 数据 集 的 例子 ， 如 图 8.4 所 示 ， 其 中 假 
设 两 个 特征 轴 的 标 度 近似 相同 。 图 中 水 平 轴 和 垂直 轴 表 示 数 据 集 的 自然 坐标 轴 。 标 号 为 1 和 2 
旋转 坐标 轴 是 应 用 这 个 数据 集 的 主 分 量 分 析 产 生 的 结果 。 从 图 8. 4 可 以 看 出 数据 集 投影 到 1 号 
oh LIME TBM EB RE, PAE MAEM AM LAT RA) 的 特点 。 的 确 ， 数 据 
投影 到 轴 1 的 方差 比 投影 到 其 他 轴 上 的 要 大 。 相 反 ， 当 映射 到 轴 2 时 ， 数 据 内 在 的 双 峰 特征 完 
全 模糊 。 

从 这 个 简单 的 例子 中 可 以 得 到 一 个 重要 的 结论 。 虽 然 ， 带 有 聚 类 结构 的 数据 集 在 带 有 水 平 
轴 和 垂直 轴 的 二 维 乎 面 图 上 很 明显 ， 但 在 实际 中 并 不 总 是 这 样 。 在 更 一 般 的 高 维 数据 集中 ， 可 
以 想象 数据 固有 的 聚 类 结构 被 隐藏 ， 要 想 看 到 它 必须 进行 与 主 分 量 分 析 相 似 的 统计 分 析 《Lin- 
sker,1988a) 。 a 
案例 研究 ”数字 图 像 压缩 

主 分 量 分 析 提 供 了 数字 图 像 压 缩 的 一 种 简单 有 效 的 方法 。 对 于 存储 容量 、 变 换 和 特征 提取 
的 一 个 实用 性 上 的 要 求 就 是 图 像 是 压缩 的 。 图 8.5 所 示 的 PCA 使 用 实际 数据 ， 以 验证 此 论断 
(Holmstrom 等 ，1997; Hyvärinen 4, 2001), 

图 8. 5 最 左 端 显示 了 一 组 10 个 手写 数字 ， 即 0 到 9， 每 一 个 都 用 一 个 32 X32 的 矩阵 组 成 
的 二 值 图 像 表示 。 当 每 一 个 图 像 在 一 行 一 行 的 基础 上 扫描 ， 就 产生 了 一 个 1024X1 的 向 量 。 
对 于 这 10 个 数字 中 的 每 一 个 ， 大 约 1 700 个 手写 字 的 样本 被 收集 。 样 本 均值 (1 024X1 的 向 
ED 和 协 方差 矩阵 (1 024X1 024 的 矩阵 ) 使 用 标准 方法 估计 。 对 于 这 10 个 手写 字 类 的 每 一 
个 ， 计 算 协 方差 矩阵 的 前 64 个 主 特征 向 量 分 量 )。 图 的 第 二 行 表示 计算 的 样本 均值 。 下 面 6 
列 显 示 重 构 的 图 像 ， 其 指标 / 表示 用 式 (8.28) 重 构图 像 时 所 使 用 的 主 分 量 的 个 数 。 在 这 些 图 像 
中 ， 各自 加 上 了 样本 均值 ， 以 合适 的 比例 显示 图 像 。 
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图 8.4 二 维 平面 的 一 组 数据 ， 它 们 投影 到 两 个 轴 1 和 2 图 8.5 使 用 主 分 量 分 析 的 手写 数字 的 


的 密度 图 。 投 影 到 办 1 有 最 大 方差 ,清楚 地 表明 压缩 《这 些 图 像 的 复制 已 得 到 
数据 的 双 峰 或 聚 类 特征 了 Juha Karhunen 博士 的 允许 ) 


由 图 8. 5 所 示 的 PCA 的 结果 ， 我 们 得 到 如 下 三 点 : 

。 随 着 重 构 的 大 小 :由 1，2，5， 16，32，64 逐渐 增长 ， 重 构 的 图 像 也 与 原始 的 10 个 手 
写字 图 像 越 来 越 相似 。 

。 当 重 构 大 小 /二 64 时 ， 每 一 个 重 构 的 数字 都 非常 清晰 。 
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。 对 于 总 共 1 024 个 分 量 个 数 ， 最 大 的 重 构 大 小 /二 64 只 是 一 个 小 的 比例 。 
主 分 量 个 数 的 估计 

在 前 面 所 讨论 的 数字 图 像 压 缩 中 ， 主 分 量 的 个 数 〈 即 维 数 约 减 的 大 小 ) 是 在 实验 中 确定 
的 。 对 于 这 个 估计 问题 的 分 析 结果 ， 我 们 可 以 把 它 看 作 一 个 模型 选择 问题 。 第 2 章 所 讨论 的 最 
小 描述 长 度 原 则 为 解决 此 问题 提供 了 一 个 好 的 测试 方法 。 

在 Wax and Kailath (1985) F, MDL 准则 被 用 于 阵列 信号 过 程 ， 即 在 有 附加 噪声 的 问 
时 ， 确 定 一 个 达到 信号 的 方向 。 为 了 解决 这 个 问题 ， 可 以 用 MDL 准则 把 输入 数据 空间 分 解 成 
两 个 子 空间 ， 一 个 代表 信号 子 空间 ， 另 一 个 代表 嗓 声 子 空间 。 基 本 上 ， 把 输入 数据 空间 分 解 成 
信号 子 空间 和 噪声 子 空 间 ， 同 解 一 个 维 数 约 减 问题 是 相同 的 。 在 此 问题 中 ， 信 号 子 空 间 的 维 数 
定义 了 响应 于 最 大 特征 值 的 主 特征 向 量 〈 分 量 ) 的 数量 。 


8.5 基于 Hebb 的 最 大 特征 滤波 器 
自 组 织 神 经 网 络 的 行为 和 主 分量 分 析 的 统计 方法 之 间 存 在 密切 的 联系 。 在 本 节 ， 我 们 将 通 
过 建立 一 个 著名 的 结果 来 证 实 这 个 关系 (Oja, 1982): 


突 触 权 值 采用 Hebb 自 适 应 规则 的 单个 线性 神经 元 能 够 形成 关于 输入 分 布 第 一 个 主 分 量 的 


要 继续 这 个 证 明 ， 先 考虑 如 图 8. 6a 所 示 的 简单 神经 元 模型 。 该 模型 在 模型 输出 为 它 的 输 
和 人 的 线性 组 合 这 个 意义 下 是 线性 的 。 神 经 元 通过 m 个 分 别 具 有 权 值 w ws wn 的 突 触 来 接 
收 m 个 输入 信号 1 ,x:，… ,x 模型 的 输出 结果 : 


二 Dw (8. 36) 
注意 这 里 描述 的 情形 ， 我 们 仅 处 理 单个 神经 元 ， 所 以 不 需要 用 双 下 标 表示 网 络 突 触 权 值 。 
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输入 向 量 | 7 
x) 输出 
yn) wn) 
Xp Án) 
a) b) 


图 8.6 最 大 特征 滤波 器 信 叶 流 图 表示 : a) 式 (8. 36) 的 图 ; b) 式 (8.41) 和 式 (8.42) 的 图 


最 大 滤波 器 的 推导 
根据 Hebb 学 习 的 假设 ， 当 前 突 触 信号 zx; 和 后 突 触 信号 y 一 致 时 ， 突 触 权 值 随时 间 逐 步 

加 强 。 具 体 可 写成 : 
w:i(n +1) = w (n) + pain), i= 1,2,0,m (8. 37) 
其 中 表示 离散 时 间 ，w 是 学 习 率 参数 。 但 是 ， 如 8. 2 节 所 述 的 那样 ， 这 个 学 习 规 则 的 基 
本 形式 会 导致 突 触 权 值 w; 无 限 增 大 ， 这 在 现实 上 是 不 能 接受 的 。 在 突 触 权 值 自 适 应 学 习 规 则 
中 采用 某 种 程度 的 饱和 度 或 归 一 化 ， 可 以 解决 这 个 问题 。 利 用 归 一 化 方法 具有 在 神经 元 的 突 触 
权 值 间 由 于 有 限 资源 导致 竞争 的 效果 ， 从 自 组 织 的 原则 2， 这 是 稳定 性 的 关键 。 从 数学 上 来 考 
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B, AG 37) 方 便 的 归 一 化 形式 描述 如 下 : 


wi(n 二 1) = wi Cn) + p(n) zi(n) 


(Pow + pam) 
其 中 分 母 的 求 和 是 针对 神经 元 的 所 有 突 触 权 值 。 假 设 学 习 率 参数 7 很 小 ， 可 以 将 式 (8. 38) 
展开 成 了 的 震级 数 形 式 ， 所 以 写成 ， 
(Daw +p Drm) = (SN Gut) + w Dyma) FOGP 


(8. 38) 





= (Sui) + 2) Dw zm) + OCP) 
i=] i=l 


= (1+ 2g’ (n))'? +0G)) 
一 工 十 (a) + 0G) (8. 39) 
ERGE. 39) 右 边 的 第 三 行 ， 我 们 使 用 以 下 约束 : 


Sut (a) = ll wim) ||? =1 At ATA on 
以 及 此 输入 输出 关系 : 
y(n) = Swi (zln) 
另外 ， 在 式 (8. 39) 的 最 后 一 行 ， 我 们 在 假定 7 较 小 的 情况 下 使 用 如 下 的 逼近 公式 ， 
C1 4+ 2yy?(n))? & 1+ py’ (nr) 
下 面 ， 用 式 (8. 38) 中 的 分 子 除 以 式 (8. 39) 中 分 母 的 近似 表示 ， 再 假定 yy 很 小 ， 我 们 可 以 
写 出 : l 


_ wid +p Maxim 
wth) IE p mO 


Cw: (n) + y DT A + ayn) + OG) 
= (w m) + p(n) a;(n)) C1 — yp’ (ny) + OF) 
= w; (n) + p(n) zi (n) — p? (n) w;(n) + OG’) 
合并 常 项 ， 路 去 二 阶 项 ， 最 终 写 出 : 
wi(n 1) = wn) + p(n) (a(n) — yn)wi(n)) (8. 40) 
式 (8. 40) 右 端的 项 y(n)x;(n) 表 示 突 触 权 值 通常 的 Hebb 修改 ， 这 符合 自 组织 原 则 1 描绘 
的 自 放大 效果 。 依 据 原则 2， 该 式 中 含有 负 项 一 y(n)w;(n) 导 臻 稳定 ; 它 修改 输入 zx;(n) 成 一 种 
依赖 于 相应 突 触 权 值 w;(n) 和 输出 y(n) 的 形式 ， 表 示 为 : 





ZX! (n) = zi(n) — y(n) w;(n) (8. 41) 
可 以 视 为 第 i 个 突 触 的 有 效 输入 。 由 式 (8. 41) 的 定义 可 以 重 写 式 (8. 40) 的 学 习 规 则 如 下 : 
wi(n 1) = w; (n) + p (n) zx; (n) (8. 42) 


神经 元 的 整体 操作 可 由 两 个 信号 流 图 的 组 合 来 表示 ， 如 图 8. 6 所 示 。 根 据 式 (8. 36)， 图 
8. 6a 的 信号 流 图 表明 输出 y(n) 依 束 于 权 值 w Cn), w (Cn) ,… swan) 。 图 8. 6b 的 信和 号 流 图 提供 
式 (8. 41) 和 式 (8. 42) 的 图 像 ， 图 中 的 传递 参数 > ' 表 示 单 位 延迟 操作 符 。 在 图 8. 6a 中 所 产生 的 
输出 y(n) TER 8. 6b 中 作为 传递 系数 。 图 8. 6b 清楚 地 展示 了 作用 于 神经 元 的 内 部 反馈 的 下 列 
两 种 形式 : 

。 根据 外 部 输入 zi(n)， 自 放大 的 正 反馈 使 得 突 触 权 值 w (n) 增 加 。 

。 由 于 一 y(z) 的 负 反馈 控制 wi;(n) 的 增 大 ， 因 此 导致 突 触 权 值 w;(n) 的 稳定 。 

乘积 项 一 y(n)w;(n) 与 在 学 习 规 则 中 经 常用 到 的 遗忘 因子 或 泄漏 因子 有 关 ， 但 存在 差别 : 对 
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于 较 强 的 响应 y(n) ， 遗 忘 因子 变 得 更 加 显著 。 这 种 控制 现象 有 神经 生物 上 的 支持 〈Stent,1973) 。 
算法 的 乍 阵 形式 
为 了 描述 上 的 方便 ， 令 : 
x(n) = [ai (n) r n) ZnCa)] 7 (8. 43) 


win) = [wi ln) sw (n) ott Wa Cn) |” (8. 44) 
输入 向 量 x(n) 和 突 触 权 值 向 量 w(z) 通 常 都 是 随机 向 量 的 实现 。 用 这 个 向 量 符号 可 以 重 写 
式 (8. 36) 为 内 积 形 式 如 下 : 


y(n) = x (n) wn) = WwW (n) x(n) (8. 45) 
同样 地 ， 可 以 重 写 式 (8. 4004: 
wlnt1) = win) mwl x(n) — yn) wn) (8. 46) 


将 式 (8. 45) 代 入 式 (8. 46) 得 : 
wln 十 1) = win) + nLXCn) x? Cn) wln) — w (n) xn)xT (n) wn) w(n) J (8. 47) 
式 (8.47) 所 示 的 学 习 算 法 为 非 线 性 随机 差分 方程 ， 这 使 得 该 算法 的 收敛 性 分 析 在 数学 上 很 
难 进 行 。 为 了 得 到 收敛 性 分 析 ， 我 们 在 假定 学 习 参 数 了 很 小 的 前 提 下 ， 先 简单 介绍 随机 逼 近 算 
法 收敛 分 析 的 一 般 工 具 。 
Kushner 的 直接 平均 方法 
检查 自 组 织 学 习 算 法 的 式 (8. 47) 右 端 ， 我 们 得 到 以 下 两 点 : 
1. 输入 向 量 x MAAE xCz)x7Gz) 的 形式 出 现 ， 表 示 协 方差 矩阵 R 的 瞬时 值 ， 即 式 (8. 6) 
中 去 掉 期 望 算 子 且 把 x(n) 当 作 随 机 向 量 X(n) 的 一 个 实现 。 实 际 上 ，xCn)x Cn) 可 以 表示 此 等 式 
的 随机 行为 。 
2. 因为 此 算法 是 非 监督 的 ， 故 而 此 算法 没有 外 部 因素 的 作用 。 
由 式 (8. 47) 可 知 ， 算 法 的 特征 均值 可 以 如 下 定义 : 
I+ yl (x(n) x? (n)) — w (n) (x(n) x? (Cn) wn) (8. 48) 
其 中 1 工 是 单位 矩阵 。 当 此 特征 矩阵 用 旧 的 权 值 向 量 w(x) 进行 更 新 操作 时 ， 得 到 式 (8.47) 中 新 
权 值 向 量 wn 十 1) 的 更 新 公式 。 注 意 项 Ww Cn) (xCn)x7(n))wln) 是 一 个 内 积 即 标量 ， 因 此 ， 我 
们 必须 用 单位 矩阵 工 乘 以 该 项 ， 以 保证 同 式 (8. 48) 剩 下 项 之 间 的 和 矩阵 乘法 的 兼容 性 。 
现在 ， 请 回忆 第 3 章 最 小 均 方 算法 (LMS) 中 Kushner 直接 平均 方法 ， 根 据 此 方法 ， 我 
们 用 以 下 的 式 来 震 换 式 (8. 48) 中 的 特征 矩阵 ， 
I+ nLR— w (n)Rw(n) 1] (8. 49) 
只 要 学 习 参 数 7 很 小 ， 这 个 替换 就 是 合理 的 。 在 7 一 定 大 的 情况 下 ， 外 积 项 ，x(n)x"(n) 
可 以 充当 协 方差 矩阵 R 的 角色 。 
因此 ， 我 们 可 以 说 只 要 7 了 很 小 ， 式 (8. 47) 的 随机 方程 的 解 就 与 如 下 的 非常 简单 的 确定 性 差 
分 解 足 够 接近 : 
w(n+1) = wn) + 7LR- wi (n)Rw(n) Lwin) (8. 50) 
我 们 令 
Aw(n) = wlat 1) — wn) 
用 上 表示 连续 时 间 ， 我 们 可 以 说 权 值 在 离散 时 间 ”的 增 量 变化 量 AwCn) 与 权 值 w 人 9 在 连续 时 间 
t 的 变换 率 成 比例 。 其 比例 关系 如 下 式 所 示 : 
dwt? oc Aw(n) (8. 51) 
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因此 ， 把 学 习 参 数 7 代入 式 (8. 51) 中 作为 比例 因子 ， 并 规范 时 间 #， 我 们 可 以 通过 如 下 的 
非 线性 常 微分 方程 来 描述 最 大 特征 滤波 器 的 变化 : 


WD 一 RWO) — Cw (RWC) wD) (8. 52) 
其 中 二 次 项 w (2)Rw(z) 是 标量 ， 使 得 在 矩阵 项 中 ， 方程 的 维 数 是 正确 的 。 
最 大 特征 滤波 器 的 渐 近 稳定 性 
根据 相关 和 矩阵 R 特征 向 量 的 完全 正 交 集 将 w(t) 展 开 成 : 
wt) = Saas (8. 53) 


其 中 qs 是 RR 的 第 个 归 一 化 特征 向 量 ， 系 数 0. (IEE WOO EE qe 上 的 时 变 投影 。 将 式 
(8. 53) 代 人 式 (8.52)， 并 应 用 8. 4 节 中 的 基本 定义 ， 


Rq: = Aca 
和 
qi Ra. = Az 
KRHA 是 与 q 相关 的 特征 值 ， 最 后 得 到 ， 
» W Da, = IAG Oa — | S287 ce) | SG ax (8. 54) 
bal k=1 t=1 k=1 
等 价 于 
BD A010) — 00) DASE, k= 1,2,.,m (8. 55) 
i=l 


从 而 我 们 将 式 (8. 47) 的 随机 逼近 算法 的 收敛 性 分 析 归 结 为 包含 主 模 式 Cprincipal mode) 0 (1) 
的 常 微分 方程 组 (8. 55) 的 系统 稳定 性 分 析 。 
修正 Langevin 公式 

鉴于 第 3 章 中 所 谈论 的 自 适应 LMS 滤波 器 ， 我 们 把 与 最 大 特征 滤波 器 相关 的 式 (8. 55) 看 
成 不 受 外 力 驱动 的 Langevin 公式 的 非 线性 修正 形式 ， 其 理由 如 下 : 

Ci) 我 们 说 Langevin 公式 是 修正 的 ， 是 因为 等 式 右 端 有 正 项 0;(t)， 其 对 等 式 放大 ; H 
这 个 放大 项 是 基于 Hebb 规则 的 。 

(ii ) Langevin 公式 是 非 线性 的 ， 是 因为 第 二 项 一 一 9(o 》)410? (1) ， 其 归 因 于 最 大 滤波 
器 突 触 之 间 的 竞争 。 

(ÏH) Langevin 公式 没有 外 力 驱 动 ， 是 因为 最 大 滤波 器 是 自 组 织 的 。 
因为 没有 外 力 驱动 ， 故 而 不 同 于 LMS 滤波 器 ， 最 大 滤波 器 以 渐进 的 方式 绝对 收敛 。 然 而 ， 非 
线性 最 大 滤波 器 使 得 收敛 行为 的 学 习 在 数学 上 更 为 困难 。 
Langevin 等 式 的 收敛 性 分 析 

依赖 于 对 下 标 & 所 赋 给 的 值 ， 可 分 为 两 种 情况 。 情 况 工 对 应 于 1k 万 m。 和 情况 对 应 于 
k=l; m 为 x(n) 和 wln) 的 维 数 。 依 次 考虑 这 两 种 情况 。 

情况 I 1<k<m, 

要 处 理 这 种 情况 我 们 定义 : 


a(t) 一 0a (4) 


6, (£) , 
首先 假 设 09. (天 0， 若 初始 值 w(0) 随 机 选 了 到， 概率 1 为 真 。 对 式 (8. 56) 两 边 对 时 间 t 求 导 
数 得 到 : 





l<kam (8. 56) 
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da, (t) 1 dy 4) dô, (t) 
dt aW dt EÐ dt 


— 1 dé, Ct) a(t) dé, Ct) 
OG) dt Act) dt’ 


其 次 ， 将 式 (8.55) 代 入 式 (8.57)， 利 用 式 (8. 56) 的 定义 并 化 简 结 果 ， 得 到 








l1< kam (8. 57) 


das), Aa l), l<k<m (8, 58) 
假设 相关 矩阵 及 的 特征 值 互 不 相同 且 按 降序 排列 ， 则 有 
dy Ap ee A An DO (8.59) 


oy HE AUER IEA HE A A, 为 正 ， 在 式 (8. 58) 中 表示 一 个 时 间 常 数 的 倒数 。 所 以 ， 从 情况 
I 发 现 : 
a(t)>0, t>, ¥l<mk<m (8. 60) 
情况 下 k=1。 
从 式 (8.57) 可 知 ， 第 二 种 情况 由 如 下 的 微分 方程 描述 : 


WD 一 CD 一 和 CD adie) 
= AA) — AG — 4 (2) DJA? @) 
t=2 


0D 一 站 外 (一 页 (Do (8. 61) 
然而 ， 从 情况 工 我 们 知道 ， 当 上 =*ce 时 ， 对 于 UAL, a > 0, Alt, 4c RMA, R 
(8. 61) 右 端的 最 后 一 项 接近 0。 忽略 此 项 ， 式 (8. 61) 简 化 为 : 
WR 一 0(D[1 一 大 CD] 对 上 -> co (8. 62) 
但 是 必须 强调 ， 只 在 渐进 意义 下 式 (8. 62) 才 成 立 。 
方程 (8.62) 表示 自治 系统 〈 即 系统 不 显 式 依赖 于 时 间 )。 这 样 一 种 系统 的 稳定 性 最 好 由 
称 为 Lyapunov 函数 的 正定 函数 处 理 ，Lyapunov 函数 的 具体 处 理 细节 将 在 第 14 章 介 绍 。 令 s 
表示 自治 系统 的 状态 向 量 ,，V (2) 表示 系统 的 Lyapunov 函数 。 如 果 满 足下 列 条 件 ， 则 系统 的 平 
衡 状 态 是 渐进 稳定 的 : 
iva <o, Y s E€ U—5 


其 中 忆 为 5 的 邻 域 。 
对 当前 的 问题 ， 我 们 断言 微分 方程 (8. 62) 有 一 个 由 下 式 所 定义 的 Lyapunov pee: 
Via) = [0)— 11] (8. 63) 
为 了 证 实 这 个 断言 ， 必 须 证 明 V(2) 需 要 满足 下 面 两 个 条 件 : 
1, MY <o 对 于 所 有 + (8. 64) 
2. V(t) 有 最 小 值 (8. 65) 


在 式 (8. 63) 中 对 上 求 导 得 : 


WO 一 49, cola (CD 一 可 全 全 —— aglow —1F, tree (8.66 


其 中 在 第 二 个 等 式 利 用 了 式 (8. 62), WEE EER, ARG 66) 发 现 ， 当 上 趋 近 无 穷 大 
时 ， 式 (8. 64) 的 条 件 为 真 。 此 外 ， 从 式 (8. GOA VOE OC) = +1 处 具有 最 小 值 ( 即 dV (2) / 
4 一 0)， 所 以 式 (8.65) 的 条 件 也 满足 。 因 此 我 们 可 以 用 下 列 陈述 结束 情况 下 的 分 析 : 
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Q(t) -> 士 1， too (8. 67) 
根据 式 (8. 67) 中 描述 的 结果 和 式 (8. 66) 的 定义 ， 可 以 重新 陈述 式 (8. 60) 中 人 情况 工 的 结果 的 
最 终 形式 ， 
Q(t)—>0, t~co H¥l<k<m (8. 68) 
从 情况 I 和 本 的 分 析 作 出 的 全 面 结论 是 两 方面 的 : 
。 式 (8.47) 描 述 的 随机 有 逼近 算法 仅 主 模式 收敛 于 b (9 ， 算 法 的 其 他 所 有 模式 将 衰减 为 0。 
。 模式 a (收敛 于 士 1。 
因此 ， 渐 进 稳定 性 定理 的 条 件 5 满足 。 特 别 地 ， 依 据 式 (8. 53) 的 展开 式 ， 可 以 正式 地 如 下 陈述 : 
Wi) >q, t+co (8. 69) 
其 中 g 是 相关 和 矩阵 R 的 最 大 特征 值 4; 对 应 的 归 一 化 特征 向量 。 
最 后 ， 要 确立 式 (8. 69) 的 解 只 是 式 (8.52) 的 非 线性 常 微分 方程 的 一 个 局 部 渐进 解 (Lya 
purnov 意义 下 的 )。 我 们 必须 先 满足 如 下 的 离散 时 间 域 的 条 件 : 
令 轴 (q) 表 示 式 (8.52) 的 解 附 近 的 吸引 域 ， 则 参数 向 量 w(2) 以 概率 1 无限 地 进入 吸引 域 
Bq) 4—- KE FRA, 
(吸引 域 的 概念 在 第 13 章 中 定义 。) 
为 了 满足 此 条 件 ， 我们 必须 证 明 对 存在 所 有 向 量 集合 x 的 子 集 满足 如 下 等 式 ， 
lim w(n) = q 概率 1 经 常 是 无 穷 的 (8. 70) 
为 了 这 样 做 ， 我 们 必须 先 证 明 参 数 向 量 列 w(n) 以 概率 1 为 界 ， 这 可 通过 硬性 限制 w(n) 的 
使 它们 的 幅度 值 小 于 阔 值 a。 我 们 可 以 定义 w) RH 
| wo) || = max |w; (n) | <a (8. 71) 
SAER” 的 压缩 子 集 ， 由 一 个 范 数 小 于 等 于 a 的 向 量 集 定 义 。 可 以 直接 证 明 (Sanger, 
1989b) 。 


如 果 win) || 委 a， 且 常数 和 足够 大 ， 则 wat] < | wG) 以 概率 1 成 立 。 


于 是 ， 随 着 迭代 次 数 n 的 增 大 ，w(n) 将 最 终 进 入 内 并 以 概率 1 留 在 内 部 。 因 为 吸引 域 
%(qi) 包 括 所 有 有 界 范 数 的 向 量 ， 因 此 有 KEW(q1)。 换 句 话说 ， 条 件 6 满足 。 

现在 证 明 (在 使 用 较 小 学 习 参 数 的 情况 下 〉 随 机 逼近 算法 (8. 47) 将 使 w(n) 以 概率 1 收 
$e FRE aE q, q 是 与 相关 和 矩阵 R 的 最 大 特征 值 4 对 应 的 特征 向 量 。 这 不 仅 是 算法 的 固定 
点 ， 而 且 是 唯一 的 渐进 稳定 点 。 
基于 Hebb 规则 的 最 大 特征 滤波 器 的 性 质 小 结 

刚才 给 出 的 收敛 分 析 只 证 明 ， 由 式 (8. 40) 或 式 (8. 46) 的 自 组 织 学 习 规 则 控制 的 单个 线性 神 
经 元 自 适 应 地 抽取 平稳 输入 的 第 一 个 主 分 量 。 这 第 一 个 主 分 量 对 应 于 随机 向 量 XX(n) 的 相关 甜 
阵 的 最 大 特征 值 i, ; SX LA 与 模型 输出 y(n) 的 方差 有 关 ， 如 下 所 示 。 

S (nn) 表 示 随 机 变量 Y(n) 的 方差 ，y(n) 表 示 Y(n) 的 一 次 实现 ， 即 

on) = ELY?) ] (8.72) 

其 中 由 于 输入 均值 为 零 ，Y(n) 具 有 0 均值。 在 式 (8. 46) PS n->oo 并 且 利 用 w(2) 趋 向 于 a 的 
事实 ， 我 们 得 到 : 


z 


x(n) = x(q, 当 n 一 co 
利用 这 个 关系 ， 可 以 证 明 当 迭代 次 数 n 趋向 于 ce 时， 方差 o (nm) 趋向 于 和; 参见 习题 8. 6。 
总 之 ， 其 运行 由 式 (8. 46) 描 述 的 基于 Hebb 的 线性 神经 元 以 概率 1 收敛 于 一 个 圈定 点 ， 它 
具有 如 下 的 特征 (Oja,1982): 
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1. 模型 输出 的 方差 趋向 于 相关 矩阵 R 的 最 大 特征 值 ， 表 示 为 : 


lim (n) = Ay (8. 73) 
2. 模型 的 突 触 权 值 向 量 趋向 相关 的 特征 向 量 ， 表 示 为 : 
lim win) =q: (8. 74) 
和 
lim |] wœ || =1 (8. 75) 


这 些 结果 均 假 设 相关 和 矩阵 REEE, H R 的 最 大 特征 值 A 的 重 数 为 1。 这 些 结果 也 适用 于 
BA A >0 且 重 数 为 1 的 非 负 定 相关 矩阵 R. 


例 2 匹配 滤波 器 
考虑 随机 向 量 X，X 的 实现 用 x 表 示 ， 令 
X=s+V (8. 76) 
其 中 向 量 s 为 固定 单位 向 量 ，V 表示 噪声 分 量 ， 具 有 零 均 值 ， 协 方差 为 ool1。X HRA 
A: 
R = ELX(@)X7 an] = ss? tI (8.77) 
PAH AB SEB R 的 最 大 特征 值 : 
à =1+0 (8. 78) 
对 应 的 特征 向 量 qn Was ASA WEA CE BPEL Bh AE a: 
Rq: = åq: 
因此 ， 对 于 本 例 描述 的 情况 ， 自 组 织 线性 神经 元 〈 站 和 敛 到 它 的 稳定 条 件 ) 充当 一 个 匹配 的 
滤波 器 ， 其 冲击 响应 〈 由 突 触 权 值 表 示 ) SHAM XOO MASE s 匹配 。 a 


8.6 基于 Hebb HER BDH 


上 一 节 中 基于 Hebb 的 最 大 特征 滤波 器 抽出 输入 的 第 一 个 主 分 量 。 这 个 单线 性 神经 元 模型 
的 前 馈 网 络 型 可 以 扩展 到 单 层 线性 神经 元 的 前 锁 网 络 ， 目 的 在 于 对 输入 进行 任意 大 小 的 主 分 量 
分 析 (Sanger,1989b)。 
广义 Hebb 算法 

考虑 如 图 8.7 所 示 的 前 馈 网 络 。 假 设 具 有 下 面 两 个 结构 属性 : 

1. 网 络 输出 层 的 每 个 神经 元 是 线性 的 。 x 

2. MAA m 个 输入 和 1 个 输出 ,它们 都 是 指定 
的 。 另 外 ， 网 络 输 出 少 于 输入 〔 即 :过 m)，。 xo 

网 络 接受 训练 的 仅 有 突 触 权 值 集 {wi }， 它 们 将 输 输入 向 量 | 
人 层 的 源 节点 i 和 输出 层 计 算 节 点 7 连接 起 来 ， 其 中 x 
i= 1,2,-+,m 和 j 二 1,2,***,l。 

在 时 刻 n 神经 元 7 对 输入 集 {zi (Cr) i=l, 











2,…,m } 的 响应 所 产生 的 输出 y(n) 由 下 式 给 出 〈 参 x 
看 图 8. 8a): 图 8.7 仅 有 单 层 计算 节点 的 前 向 反馈 网 络 : 
yi(n) = Dw ma: Cn), j= 1,2, (8.79) 
根据 Hebb 学 习 的 广义 形式 ， 修 改 突 触 权 值 wi (n) 采 用 下 式 (Sanger, 1989b) 
i = 2，… sm 


Aws (n) = qfy; Dz: C) = y 0) X we yD): saz 8 
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其 中 Aw, (n) 是 在 时 刻 n 对 wi Cn) 的 修改 ,7 是 学 习 率 〈《Sanger,1989b)。 注 意 在 式 (8. 80) 中 ， 
下 标 i 指 的 是 图 8.7 中 网 络 的 输入 ， 而 下 标 7 指 的 是 其 输出 。 对 于 一 层 含 有 ! 个 神经 元 的 式 
(8. 80) 所 示 的 广义 Hebb 算法 (generalized Hebbian algorithm, GHA) 包括 上 一 节 对 单个 神 
经 元 的 式 (8. 40) 的 算法 为 其 特殊 情况 〈 即 7 一 1)。 

要 对 该 算法 的 行为 进行 分 析 ， 将 式 (8. 80) 重 新 写成 以 下 的 形式 : 


i= 1,2,°°,m 





Aw; (7n) = my; (n) [ri Cn) — wi (ny; (n) 1, -=19 I (8. 81) 
J S Lele **s 
其 中 ri MARA A x WB i 个 分 量 的 修改 形式 ; 它 是 下 标 j 的 函数 ， 表 示 为 : 
xin) = x(n) — Dd} wen) y(n) (8. 82) 
k=1 
x(n) OF = le) -o wn) 
-p(n) 


2 


Sit (n) 
x(n) oeo wn) 


Y 









w,(n) 


yAn) 
wAn) 





winti) 








C Xn(n) 
a) bd) 


图 8.8 广义 Hebb 算 法 的 信和 号 流 图 表示 ; a) 式 (8.79) 的 图 ; b) 式 (8.80) 到 式 (8.81) 的 图 ， 其 
中 zz! (Cn) AM x) (Cn) 由 式 (8. 82) 和 式 (8. 84) 定 义 


对 菜 个 指定 的 神经 元 j， 式 (8. 81) 表 示 的 算法 与 式 (8. 40) 表 示 的 算法 在 数学 形式 上 完全 相同 ， 


只 是 将 rM ERTER. 82) 所 定义 的 修改 值 x; (n)。 可 以 进一步 将 公式 (8. 81) 重 新 写成 Hebb 
的 学 习 假设 对 应 的 形式 ， 表 示 为 : 


Aw; (n) = qy; (n) x3 (n) (8. 83) 
其 中 
zina) = x) — wy, (nd 9; (n) (8. 84) 
因此 ， 注 意 到 
wi (n+ 1) 一 w; (n) + Aw; (n) (8. 85) 


和 
wy (nm) = zi Lw,;(a+1)] (8. 86) 


` 
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其 中 > “是 单位 延迟 操作 符 ， 我 们 可 以 构建 广义 Hebb 算法 的 信号 流 图 ， 如 图 8. 8b 所 示 。 从 图 
中 看 出 只 要 其 公式 由 式 (8. 85) 描 述 ， 则 算法 适合 于 该 实现 的 局 部 形式 。 同 时 注意 在 图 8. 8b 的 
fA SRA PRA RR yO BRE. DRE; 它 的 信号 流 图 表示 在 图 8. 8a 给 出 。 

为 了 帮助 理解 广义 Hebb 算法 实际 上 如 何 操 作 ， 我们 首先 利用 和 矩阵 形式 重 写 式 (8. 81) 定 义 
的 算法 如 下 : 


Aw; (n) 一 mi mx (n) — pi nw; Cn), j = l,2,™,L C8. 87) 
其 中 w OERA j 的 突 触 权 信 向 量 ， 且 : 
x OD = x(n) — DY win) yln) (8. 88) 


向 量 x 2) 为 输入 向 量 x《n) 的 修正 形式 。 基 于 式 (8. 87) 给 出 的 表示 ， 我 们 得 到 下 面 的 观察 
结果 (Sanger,1989b) : 

1. 对 于 图 8.7 的 前 馈 网 络 中 的 第 一 个 神经 元 ， 我 们 有 : 

j=l; X (n) = x(n) 

在 这 种 情况 下 ， 广义 Hebb 算法 相当 于 上 一 节 的 一 个 神经 元 的 式 (8.46)。 由 8.5 节 的 描 
述 ， 我 们 已 经 知道 这 个 神经 元 将 发 现 输入 向 量 的 第 一 个 主 分 量 。 

2. 对 于 图 8. 7 中 的 第 2 个 神经 元 ， 我 们 写 出 : 

7 一 2， x(n) = x(n) — wi (n) yn) 

如 果 第 一 个 神经 元 已 经 收敛 于 第 一 个 主 分 量 ， 则 第 二 个 神经 元 看 到 一 个 输入 向 量 x Ca), 
从 其 中 已 经 去 掉 相 关 和 矩阵 R 的 第 一 个 特征 向 量 。 因 此 第 二 个 神经 元 抽取 的 是 x'(n) 的 第 一 个 主 
分 量 ， 相 当 于 原来 输入 向 量 x(n) 的 第 二 个 主 分 量 。 

3. 对 于 第 3 个 神经 元 ， 我 们 写 出 : 

了 一 3: x m) = x(n) — wi (1) Ga) — we Cr) y: (2) 

假设 前 两 个 神经 元 已 经 分 别 收敛 于 第 一 个 和 第 二 个 主 分 量 ， 如 前 面 两 步 的 解释 一 样 。 第 三 
个 神经 元 的 输入 向 量 为 x (2z) ， 从 其 中 已 经 去 掉 相 关 抢 阵 R 的 前 两 个 特征 向 量 。 因 此 第 三 个 神 
经 元 抽取 的 是 x'(n) 的 第 一 个 主 分 量 ， 相 当 于 原来 输入 向 量 x(n) 的 第 三 个 主 分 量 。 

4. 对 于 图 (8.7) 的 前 馈 网 络 中 剩 下 的 神经 元 ， 继 续 执行 上 述 过程 。 显 然 根 据 式 (8. 81) 的 广 
SC Hebb 算法 训练 的 网 络 的 每 个 输出 代表 对 应 于 输入 向 量 相关 和 矩阵 的 某 一 特征 向 量 的 响应 ， 并 
且 这 些 输出 按 特征 值 递减 排序 。 

这 个 计算 特征 向 量 的 方法 通称 为 Hotelling 的 紧缩 技术 (Kreyszig, 1988); 它 类 似 于 
Gram-Schmidt 正 交 化 过 程 (Strang,1980)。 


收敛 性 考 上 处 
A Wn) = (wy (n)} 表 示 图 8.6 所 示 前 馈 网 络 的 一 个 Xm 的 权 值 矩阵 ， 即 
Wn) = Lw: (1) 9 We (n) ee yw, (n) |? (8. 89) 
SX Hebb 算法 的 学 习 率 参数 y 随 着 时 间 变 化 而 变化 ， 即 yn), PRA: 
lim y(n) 一 0 E $m = 0 (8. 90) 
可 以 将 算法 重新 写成 矩阵 形式 : 
AW(n) = qin) (y(n) x? Cn) — LT [y(n y? (xn) JW) } (8. 91) 
其 中 


y(n) = W(n) x(n) 
其 中 LT[.] 为 下 三 角 算 子 ， 它 把 矩阵 对 角 线 上 方 的 所 有 元 素 置 为 0， 从 而 使 矩阵 成 为 下 三 
角 和 矩阵 。 在 这 些 条 件 下 以 及 采用 8.5 节 的 假设 ， 则 GHA 算法 收敛 性 证 明 的 过 程 与 上 节 关 于 最 
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大 特征 滤波 器 的 收敛 证 明 相似 。 因 此 有 下 面 的 定理 (Sanger,1989b): 

如 果 权 值 给 阵 Wln) 在 时 间 步 n= 二 0 时 随机 赋值 ， 则 式 (8.91) 所 描述 的 广义 Hebb 算法 以 概 
IKATERE, AW BTA, AEETI mMX1 输入 向 量 的 mXm 的 相 
关 矩 阵 及 的 前 ! 个 特征 向 量 ， 按 特征 值 的 降序 排列 。 


这 个 定理 的 实际 价值 在 于 ， 当 对 应 特征 值 互 不 相同 时 它 保证 广义 Hebb 算法 能 够 找到 相关 
矩阵 R 的 前 /个 特征 向 量 。 同 样 重要 的 是 ， 我 们 不 需要 计算 相关 和 矩阵 R，R 的 前 /个 特征 向 量 
可 直接 由 输入 向 量 计算 。 特 别 是 如 果 输 入 空间 的 维 数 m 很 大 ， 而 要 求 与 R 最 大 的 /个 特征 值 
对 应 的 特征 向 量 的 数目 只 是 mx 的 一 小 部 分 ， 则 可 以 节省 大 量 计算 。 

收 敏 定理 是 用 时 变 学 习 率 参数 y(n) 表 示 的 。 实 际 上 ， 学 习 率 参数 只 能 选择 一 个 很 小 的 固 
定常 数 7?， 这 样 才能 保证 在 7 阶 的 突 触 权 值 的 均 方 误差 意义 下 收敛 。 

在 Chatterjee 等 (1998) 中 ， 研 究 式 (8. 91) 描 述 的 GHA 算法 的 收敛 性 质 。 那 里 给 出 的 分 
析 表 明 ，7 增加 将 导致 收敛 速度 加 快 ， 同 时 渐进 均 方 误差 也 会 增 大 ; 这 在 直观 上 也 是 符合 的 。 
除 此 之 外 ， 该 论文 对 计算 的 精确 性 和 学 习 速 度 之 间 的 折 中 作 了 清楚 的 描述 。 
广义 Hebb 算法 的 最 优 性 

假设 在 极限 时 写成 : 

Aw;(n) 一 0 E wa) 一 中 ，7 一 co， 对 一 1 2，…! (8. 92) 
HAA 
lw) || =1, 对 所 有 7 (8. 93) 
那么 在 图 8. 5 所 示 的 前 馈 网 络 中 ， 神 经 元 的 突 触 权 值 向 量 的 极限 值 qi ,qs qe 表示 相关 
矩阵 R 的 前 ! 个 特征 值 对 应 的 好 一 化 特征 向 量 ， 按 特征 值 的 降序 排列 。 在 平衡 时 可 写 为 : 
Ais k=j 
0, RAJ 


其 中 Ai >A >t >À 
对 于 神经 元 7 的 输出 ， 我 们 有 极限 值 : 
lim y; (n) = x’ (n)q; = qi x(n) (8. 95) 
令 Y;(n) 表 示 一 个 随机 变量 ， 其 实现 记 为 输出 y;(n)。 在 平衡 时 随机 变量 y; OM yo 


互相 关 为 : 
Àj» k=j 


0, RAG 
因此 ， 我 们 可 以 说 : 在 平衡 时 式 (8. 91) 的 广义 Hebb 算法 充当 输入 数据 的 特征 分 析 器 。 
DEMER A EE x(n) 的 特定 值 ， 对 于 这 个 值 ， 式 (8. 92) 

的 极限 条 件 对 j=/ 一 1 是 满足 的 。 因 此 ， 从 式 (8. 80) 的 和 矩阵 形式 ， 

我 们 发 现在 极限 形式 : 


lim ELY; (MY: (mM J = ELG XWX (n)q = qi Ra = (8. 96) 


Em = Dou wan (8.97) 
k=1 


这 意味 着 给 定 两 组 值 ， 即 图 8. 6 的 前 饼 网 络 中 神经 元 的 突 触 权 
值 向 量 的 极限 值 qi ,qs，…,q 和 相应 的 输出 yi Ga) sy a) os 
y(n) ， 我 们 可 以 构造 输入 向 量 x(n) 的 线性 最 小 平方 估计 ()。 实 a 
际 上 ， 如 图 8.9 所 描绘 的 式 (8. 97) 的 公式 可 视 为 一 种 数据 重建 。 注 
意 根据 8. 4 节 中 的 讨论 ， 这 种 数据 重建 的 方法 导致 副 近 误差 向 量 和 中? MAN ua 
EHEER. aiaa 
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GHA 小 结 

广义 Hebb Fk (GHA) 所 涉及 的 计算 很 简单 ， 可 以 总 结 如 下 : 

1. 在 时 间 ”一 1 时 ,初始 化 网 络 突 触 权 值 ww ， 使 其 取 一 个 小 的 随机 数 。 对 学 习 率 参数 7 赋 
给 一 个 小 的 正 数 。 

2. 对 于 n=l, j= 1 2，…，L 和 i = 1,2,…,m 计算 : 


yi(n) = > wi (nd x(n), j =1,2,-,1 
i=] 


了 一 1,2,°,2 
i = 1,2," m 
EHP, oe mX 输入 向 量 zz) 的 第 ;个 分 量 ，! 是 期 望 的 主 分 量 个 数 。 
3.74 增 加 1 一 n 十 1)， 转 到 第 2 步 ， 并 继续 执行 直到 zw 达到 稳 态 值 。 对 较 大 的 n， 神 经 元 j 
的 突 触 权 值 wi 收敛 于 输入 向 量 x(n) 的 相关 和 矩阵 的 第 j 个 特征 值 对 应 特征 向 量 的 第 i 个 分 量 。 


8.7 计算 机 实验 : 图 像 编码 


通过 用 广义 Hebb 学 习 算 法 解决 图 像 编码 问题 完成 对 该 算法 的 讨论 。 
图 8. 10a 表示 用 于 训练 的 一 个 Lena 图 像 ， 该 图 像 强调 边缘 信息 。 它 被 数字 化 为 256 X 256 
的 图 像 ， 分 为 256 个 灰 度 等 级 。 利 用 一 个 具有 8 个 神经 元 的 单 层 线性 前 馈 网 络 对 图 像 编 码 ， 每 
个 神经 元 有 64 个 输入 。 利 用 8X8 的 非 重 要 图 像 块 训练 网 络 。 试 验 扫描 图 像 2 000 次 ， 学 习 率 
7 一 10“。 
图 8. 10b 显示 的 8X8 的 掩 模 (mask) 表示 网 络 学 习 所 得 的 突 触 权 值 。8 个 掩 模 中 的 每 一 
个 为 与 某 个 特定 的 神经 元 相关 的 一 组 权 值 。 具 体 地 ， 兴 奋 〈 正 ) 的 权 值 用 白色 显示 ， 抑 制 
(fi) 的 权 值 用 黑色 表示 ， 灰 色 表 示 权 值 为 0。 在 我 们 的 表示 法 中 ， 掩 模 表 示 广 义 Hebb 算法 收 
SUR AY 64X8 罕 触 权 值 矩 阵 WT 的 列 。 
使 用 下 面 的 步骤 实现 对 图 像 编 码 ; 
。 图 像 的 每 个 8X8 块 与 图 8. 10b 所 示 的 8 个 掩 模 的 每 一 个 相 乘 ， 因 此 将 产生 8 个 系数 作 
为 图 像 编码 ; 图 8. 10c 显示 没有 量化 的 基于 8 个 主 分 量 的 图 像 重 建 。 
。 每 个 系数 一 律 被 量化 为 与 该 图 像 的 系数 方差 的 对 数 成 正比 的 比特 数 。 最 大 的 3 个 掩 模 
为 每 个 6 比特 ， 其 次 的 两 个 为 每 个 4 比特 ， 再 其 次 的 两 个 为 每 个 3 比特 ， 最 小 的 一 个 
为 2 比特 。 基 于 上 述 表示 ， 需 要 34 比特 对 每 8X8 的 像素 块 编码 ， 每 个 像素 为 0. 53 比 
特 的 数据 率 。 
用 量化 系数 重建 图 像 ， 所 有 的 掩 模 都 用 它们 的 量化 系数 加 权 ， 然 后 登 加 重新 构成 的 每 块 图 
像 。 以 11 : 1 的 压缩 率 重建 的 图 像 如 图 8. 10d 所 示 。 


原始 图 像 权 


Aw; (n) = gly Mz: n) — y; (n) D we Dym) 3 
k=1 





b) 
图 8. 10 a) 用 于 图 像 编码 试验 的 Lena 图 像 ，b) 8X8 的 掩 模 表示 由 GHA 学 习 的 突 触 权 值 ; c) 利用 8 个 
无 量化 主 分 量 所 得 的 Len 图 像 重 建 ; d 用 量化 的 11 : 1 压缩 比 的 Len 图 像 重 建 
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作为 第 一 个 图 像 的 变化 ， 下 面 我 们 对 图 8. 11a 所 示 的 辣椒 图 片 应 用 广义 Hebb 算法 。 这 幅 图 像 
强调 纹理 信息 。 图 8. 11b 显示 用 前 面 描述 的 处 理 方式 由 网 络 学 得 的 突 触 权 值 的 8X8 掩 模 图 像 ， 注 意 
它们 和 8. 10b 的 掩 模 的 区 别 。 图 8. lle 显示 没有 量化 的 基于 8 个 主 分 量 重建 的 海洋 图 像 。 为 了 研究 
量化 的 影响 ， 令 前 两 个 掩 模 的 输出 每 个 为 5 比特 , 第 3 个 为 3 比特 ， 剩 下 的 5 个 每 个 为 2 比特 。 这 

需要 23 比特 为 每 个 8X8 像素 块 编码 ， 每 个 像素 块 的 比特 率 为 0. 36 比特 每 像素 。 图 8. 11d PRE 
化 后 重建 的 辣椒 图 像 ， 使 用 其 以 刚才 描述 的 方式 量化 的 掩 模 。 这 幅 图 像 的 压缩 比 为 12 : 1。 


原始 图 像 butt 





使 用 8 个 





分 量 








c) 


利用 Lena 图 像 的 权 值 





D 


图 8.11 a) 辣椒 图 像 ，b) 8X8 的 掩 模 表 示 由 应 用 于 辣椒 图 像 的 GHA 学 习 到 的 突 触 权 
值 ，c) 利用 8 个 优势 主 分 量 重建 的 辣椒 图 像 : d) 利用 b) 中 的 掩 模 以 12:1 压 
缩 比重 建 的 ， e) 利用 图 8. 10b 中 的 掩 模 编 码 以 12 : 1 压缩 比 量 化 重建 的 辣椒 图 
像 ; D 复制 图 8. 10b 中 的 Lena Hi (HI) 


为 了 测试 广义 Hebb 算法 的 “ 泛 化 ”性 能 ， 最 后 用 图 8. 10b 的 掩 模 分 解 图 8. 11a 所 示 的 辣 
椒 图 像 ， 然 后 用 与 产生 图 8. 11d 所 示 重 建 图 像 一 样 的 量化 过 程 。 这 个 图 像 重 建 结 果 如 图 8. 1le 
所 示 ， 压 缩 比 与 8. 11d 一 样 ， 也 为 12 : 1。 虽 然 在 8. 11d 中 的 重建 图 像 与 在 8. lle 中 的 重建 图 
像 惊人 地 一 致 ， 但 可 以 看 到 图 8. 11d HA 8. lle 更 具有 真实 纹理 信息 而 更 少 块 状 现象 。 产 生 这 种 
情况 的 原因 在 于 网 络 的 权 值 。 为 了 能 够 把 对 辣椒 图 像 的 在 图 8. 11b 中 的 掩 模 〈 权 值 ) 与 对 Lena 
图 像 的 在 图 8. 10b 的 掩 模 进 行 相 比 ， 我 们 在 图 8. 11f 中 给 出 复制 ， 并 得 到 以 下 两 个 结论 : 

(1) 它们 的 前 4 个 突 触 权 值 很 相似 。 

(2) 然而 ， 对 Lena 图 像 而 言 ， 后 4 个 权 值 编码 边缘 信息 ,但 在 辣椒 图 像 中 ， 这 4 个 权 值 
编码 纹理 信息 。 

因此 要 点 〈2) 解释 了 在 图 像 (Ce) PH (d) 相 比 的 辣椒 图 像 的 块 状 现象 。 


8.8 核 主 分 量 分 析 


到 目前 为 止 本 章 讨 论 的 PCA 都 是 基于 输入 数据 的 二 阶 统计 量 〈 即 相关 性 ); 因此 ， 标 准 
PCA 被 称 为 线性 维 数 压 缩 方法 。 然 而 ， 从 实际 的 角度 来 看 ， 我 们 需要 把 PCA 的 数据 压缩 能 力 
拓展 到 结构 中 包含 高 阶 统计 量 的 输入 数据 。 此 拓展 要 求 非 线性 的 PCA 算法 。 为 了 此 目的 ， 
Scholkopf et al. (1998) 设计 了 一 种 叫做 核 PCA 的 非 线性 版 本 的 PCA 算法 。 这 个 新 的 工具 建 
立 在 第 6 章 中 所 讨论 的 再 生 核 Hilbert 空间 的 基础 之 上 。 

在 实现 过 程 中 ， 比 较 GHA 和 核 PCA 算法 具有 如 下 的 指导 意义 : 
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1. GHA 使 用 了 一 个 包含 输入 层 和 输出 层 的 简单 反馈 网 络 ;这 个 网 络 全 部 由 线性 神经 元 组 成 。 
核 PCA 同样 使 用 一 个 反馈 网 络 ， 但 是 这 个 网 络 包含 了 一 个 非 线性 的 隐藏 层 和 一 个 线性 的 输出 层 。 

2. GHA 是 一 个 在 线 学 习 算 法 ， 而 核 PCA 是 一 个 批量 算法 。 

由 于 核 PCA 算法 关联 到 隐藏 层 ， 此 算法 遵循 第 6 章 中 在 设计 支持 向 量 机 中 所 讨论 的 理论 。 
关于 输出 层 ， 核 PCA 算法 遵循 标准 PCA 算法 的 维 数 压缩 理论 。 因 此 ， 其 名 为 “ 核 PCA”。 
核 PCA 算法 的 推导 

b: RR RRA m 维 输入 空间 到 mi 维特 征 空间 的 非 线 性 映射 。 令 向 量 (x) 表 示 输 
入 图 像 向 量 x 在 特征 空间 的 特征 向 量 。 给 定 一 组 样本 {x;)X， 我 们 有 一 组 相应 的 特征 向 量 
{中 x)) 人 站 。 因 此 我 们 可 以 在 特征 空间 定义 由 下 表示 的 外 积 形式 为 中 到) 中 7 (xz ) 的 如 下 za Xm 
相关 和 矩阵 ， 

R= Loa oe (8. 98) 

如 同 普通 的 PCA, RNS RE MOREE EO). HRARAEME: 

NÈ 中 (xi;) 一 0 

在 特征 空间 上 满足 这 个 条 件 比 在 输入 空间 上 更 加 困难 ;在 习题 8. 15 中 我 们 描述 一 个 过 程 

来 满足 这 个 要 求 。 假 设 特征 向 量 已 经 聚集 于 中 心 ， 则 可 以 在 目前 情况 下 改变 式 (8. 14) ， 写 成 : 
Rg = aq (8. 99) 
其 中 多 为 相关 和 矩阵 外 的 特征 值 ， 站 为 对 应 的 特征 向 量 。 我 们 注意 对 4 满足 式 (8.99) 的 所 有 


特征 向 量 落 在 特征 向 量 { 中 Cx;)} 六 ,集合 生成 的 空间 中 。 因 此 存在 一 组 相应 的 系数 {a) 六 :， 用 它 
们 可 写成 : 


q= > Cx) (8. 100) 
由 此 将 式 (8. 98) 和 式 (8. PORAS. 99) 得 到 ， 
> Se, (x, 2 (x; sx) = NA ia $x) (8. 101) 
其 中 kw，%) 是 肉 积 核 ， 通 过 特征 向 量 由 下 式 定义 : 
k(x; »x;) = (x) Px) (8. 102) 


我 们 需要 进一步 计算 式 (8. 101) 以 完全 用 内 积 核 来 表示 此 关系 。 在 式 (8. 101) 等 号 的 两 边 左 
乘 以 转 置 向 量 中 (x,) 得 : 


5 Saka, ,XR ) = NA Dak (x Mo 8 = 1,250, N (8. 103) 


其 中 k(x, sx), KOX) 由 式 (8. 102) 定 义 。 
现在 引入 下 面 两 个 矩阵 定义 : 
。 NXN BEEK, RARER, CKE ij HICK AN BK Rw) 
。 NX1 向 量 a， 第 7 个 元 素 为 参数 aj。 
因此 ， 可 以 将 式 (8. 103) 写 成 紧 竣 的 矩阵 形式 : 
Ko = NiKa (8. 104) 
其 中 矩阵 的 平方 K 表示 KHR. AARG 104) 两 端 均 有 KK， 特征 值 问题 感 兴趣 的 全 部 
解 同 样 可 用 更 为 简单 的 特征 值 问题 表示 : 
Ka = Nia (8. 105) 
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we nets 之 Anw 表示 核 矩 阵 K 的 特征 值 ， 即 


aA, = Nay, f = lode N | (8. 106) 


其 中 7 ERER, 的 第 7 个 特征 值 。 从 而 式 (8. 105) 变 成 如 下 的 标准 形式 ， 


Ka 一 Aa (8. 107) 
其 中 系数 向 量 w SRM KOREA 的 对 应 特征 向 量 的 作用 。 系 数 向 量 & 是 归 一 化 的 ， 因 


为 要 求 将 相关 和 矩阵 R 的 特征 向 量 症 妇 一 化 为 单位 长 度 ， 即 


gq =1, SR=A1 2.51 (8. 108) 
此 处 假设 特征 值 上 为 降序 排列 ，》, WE K 的 特征 值 的 最 小 非 零 值 。 利 用 式 (8. 100) 和 


式 (8.107) 可 以 得 到 式 (8. 108) 等 价 的 归 一 化 条 件 : 
1 


ae = 一 ， r=1,2,.,/ (8. 109) 


A 
为 了 抽出 主 分 量 ， 需 要 计算 特征 向 量 gi 在 特征 空间 上 的 投影 如 下 ， 


df (x) = Saw, '(x;) (x) = Do (ROR sxX), k=1,2,.,l (8. 110) 


其 中 向 量 x 是 “测试 ” 点 ， ,是 矩阵 K$ k 个 特征 值 对 应 的 特征 向 量 on 的 第 7 个 系数 。 式 
(8. 110) 的 投影 是 定义 在 m 维 的 特征 空间 上 的 非 线性 主 分 量 (nonlinear principal component) 。 

图 8. 12 说 明 核 PCA 的 基本 思想 ， 其 中 特征 空间 经 过 变换 中 (x) 和 输入 空间 是 非 线 性 相关 
的 。 图 中 的 a 和 bb 部 分 分 别称 为 输入 空间 和 特征 空间 。 图 8. 12b 中 的 轮廓 线 表 示 在 主 特征 向 量 
上 的 投影 为 常数 的 线 ， 特 征 向 量 用 虚线 第 头 表 示 。 在 此 图 中 ， 假 设 变换 中 (x) 用 下 面 的 方式 选 
择 ， 在 特征 空间 中 数据 点 诱导 的 像 聚 集 在 特征 向 量 沿线 。 图 8. 12a 显示 输入 空间 上 对 应 特征 空 
间 的 线性 等 值 线 的 非 线性 等 值 线 。 注 意 我 们 有 意 没有 在 输入 空间 上 画 特 征 向 量 的 原 像 ， 因 为 它 


甚至 可 能 不 存在 〈Scholkopf 等 ，1998) 。 


按照 Mercer 定理 定义 的 内 积 核 ， 我 们 在 m 维特 征 空间 上 执行 普通 的 PCA， 维 数 m 是 设 
计 参 数 。8. 4 节 描 述 的 普通 PCA 的 所 有 性 质 对 核 PCA 均 适 用 。 尤 其 是 ， 核 PCA 在 特征 空间 
上 是 线性 的 ， 但 在 输入 空间 上 是 非 线性 的 。 因 此 ， 所 有 可 用 普通 PCA 进行 特征 提取 和 数据 压 


” 缩 的 领域 ， 进 行 非 线性 扩展 PCA 也 有 意义 。 


在 第 6 章 我 们 提出 了 三 种 构造 内 积 核 的 方法 ， 它 们 是 基于 利用 多 项 式 、 径 向 基 画 数 和 双 曲 函数 ， 


参见 表 6. 1。 对 给 定 的 任务 ， 如 何 选择 最 适合 的 核 〈 即 恰当 的 特征 空间 ) 是 一 个 有 待 解决 的 问题 。 
% AN HRD g(x) 特征 空间 
as x 


x= EA 


一 一 





g(x) 











a) b) 


图 8.12 核 PCA 图 例 。a) 二 维 输入 空间 ， 显 示 一 组 数据 点 ; b) 二 维特 征 空间 ， 显 示 数 据点 在 一 个 主 特 
征 向 量 附近 聚集 的 诱导 像 。 在 b) 中 均匀 排列 的 虚线 表示 在 特征 向 量 上 投影 为 常数 的 等 值 线 ; 它 
们 在 输入 空间 中 的 对 应 等 值 线 是 非 线性 的 
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核 主 分 量 分 析 小 结 

1. 给 定 训练 样本 {x }N., HA NXN BEE K= (kas), HP 

R(x; »x;) = p (x,) 中 (xi )， inf = 1,2, oN 
其 中 我 们 假定 已 经 进行 了 数据 预 处 理 过 程 ， 使 得 训练 样本 的 所 有 特征 向 量 都 满足 零 均 值 条 件 ， 即 : 
NÈ b(x;) 一 0 
2. 解 特 征 值 问题 : 
Ka = Aa 

其 中 4 为 K 的 特征 值 ，& 为 对 应 的 特征 向 量 。 

3. 归 一 化 所 计算 的 特征 值 ， 这 要 求 


’ r= 1,2,°,l 


Jp a 是 矩阵 K 最 小 的 非 零 特征 值 ， 假 设 特征 值 是 按 降序 排列 的 。 
4. 为 了 抽取 测试 点 x WEDE, HARE.: 


a, = A O(x) = Sank (x sx) 六 一 27 
其 中 a,,; 是 特征 向 量 a 的 第 7 个 元 素 。 


例 3 核 PCA 算法 的 事例 试验 


要 对 核 PCA 的 运行 有 一 个 直观 的 了 解 ， 图 8. 13 显示 一 个 简单 的 实验 结果 〈Schalkopf F, 
特征 值 =0.709 特征 值 =0.621 特征 值 =0.570 特征 值 =0.552 
































1 0 1 
特征 值 =0.000 





图 8.13 说 明 核 PCA 的 二 维 示 例 。 从 左 到 右 ， 核 多 项 式 的 次 数 4 王 1，2，3，4。 从 上 到 下 ， 显 
示 特 征 空间 中 的 前 面 三 个 特征 向 量 。 第 一 列 对 应 普通 的 PCA， 后 三 列 对 应 多 项 式 次 数 
d=2, 3, 4K PCA (此 图 的 复制 经 Klaus-Robert Muller 博士 允许 ) 
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1998) 。 二 维 数据 由 分 量 2. 和 zx; 组 成 ， 在 这 个 试验 中 用 下 述 方法 产生 : zi 的 值 在 区 间 [一 1， 
1] 上 均 勾 分布; zs 的 值 与 zx, 非 线 性 相关 ， 由 如 下 公式 确定 : 
Xs = x +v 

其 中 vv 是 均值 为 0 方差 为 0.04 的 附加 高 斯 噪声 。 

图 8. 13 所 示 的 核 PCA 的 结果 可 以 由 如 下 的 核 多 项 式 得 到 ， 

R(x,x;) = (XX;)”, d=1,2,3,4 

其 中 d=1 对 应 线性 PCA, d=2, 3, 4 对 应 于 核 PCA。 线 性 PCA 如 图 8.13 左面 所 示 ， 因 为 
输入 空间 为 二 维 ， 仅 产生 两 个 特征 向 量 。 相 反 ， 核 PCA 允许 抽出 高 阶 分 量 ， 结 果 如 图 8. 13 中 
的 2、3、4 列 所 示 ， 分 别 与 4 二 2，3，4 对 应 。 图 中 每 部 分 显示 的 等 值 线 (在 线性 PCA 情形 时 
除去 零 特 征 值 ) 表示 常数 主 值 〈 即 在 与 特征 值 相关 联 的 特征 向 量 上 的 投影 为 常数 ) 。 

根据 图 8. 13 显示 的 结果 可 得 到 如 下 结论 : 

。 如 所 期 望 的 ， 线 性 PCA 不 能 对 非 线性 输入 数据 提供 足够 的 描述 。 

。 在 所 有 情况 下 ， 第 一 个 主 分 量 沿 着 构成 输入 数据 的 抛物 线 单调 变化 。 

。 在 核 PCA 中 ， 对 不 同 的 多 项 式 次 数 4， 第 2 和 第 3 个 主 分 量 展示 一 定 的 相似 性 。 

。 在 多 项 式 次 数 d=2 情况 下 ， 核 PCA 的 第 3 个 主 分 量 显 现 出 找到 加 性 高 斯 噪声 vv 的 方 

差 。 消 除 这 个 主 分 量 的 影响 ， 在 效果 上 实际 是 执行 某 种 形式 的 噪声 消除 。 z 


8.9 自然 图 像 编 码 中 的 基本 问题 


在 编码 自然 图 像 的 过 程 中 ， 有 两 个 基本 的 策略 。 这 两 个 策略 都 试图 发 党 图 像 的 潜在 结构 中 
的 内 在 宛 余 消 息 ， 以 对 潜在 图 像 进 行 有 效 的 表示 。 这 两 个 策略 是 : 

1. 压缩 编码 。 在 这 个 编码 策略 中 ， 图 像 变 换 成 缩减 数量 的 向 量 表示 ， 并 且 编 码 受 到 规定 
的 均 方 根 误差 的 损失 。 主 分 量 分 析 就 是 压缩 编码 的 一 个 常见 例子 。 

2. 称 朴 分 布 编码 。 在 此 第 二 个 编码 策略 中 ， 自 然 图 像 的 维 数 并 不 约 减 。 输 入 图 像 中 的 元 
余 信 息 以 一 种 独特 的 方式 变换 ， 使 得 其 与 虚拟 系统 中 神经 元 的 激活 模式 的 元 余 信息 相 匹配 。 

在 经 典 文 章 中 〈Field，1994) ， 对 这 两 种 编码 方法 进行 了 对 比 。 特 别 地 ， 我 们 指出 稀 朴 分 
布 编码 的 特征 可 在 自然 图 像 潜在 分 布 的 四 阶 和 给 〈 即 kurtosis) 中 找到 。PCA 是 一 个 线性 编码 方 
法 ， 依 靠 其 函数 的 二 阶 统 计量 。 因 此 它 能 够 获得 自然 图 像 的 四 阶 统计 ， 这 对 于 一 个 有 效 的 编码 
策略 是 十 分 重要 的 。 在 Field 的 文章 中 提 到 了 另 一 个 关键 的 问题 ， 就 是 形 如 小 波 变 欣 "的 稀 芯 
分 布 编码 是 有 效 的 ， 因 为 对 自然 图 像 编码 时 ， 所 得 到 的 直方 图 呈现 出 高 的 峰 度 。 另 外 ， 此 文中 
指出 ， 对 于 一 阶 通 近来 说 ， 自 然 图 像 的 编码 可 以 看 作 自 相似 局 部 函数 的 和 《〈 即 小 波 变换 的 逆 过 
程 )。 

现在 ， 大 都 认为 自然 图 像 泛 化 的 过 程 是 非 线 性 的 〈Ruderman，1997) 。 其 中 一 个 重要 的 因 
素 是 闭合 ， 这 本 身 是 非 线性 的 。 在 自然 图 像 中 的 闭合 图 像 轮廓 有 四 个 主要 的 来 源 〈Richards， 
1998): 

。 外 部 闭合 边 ; 

。 KARHE; 

。 阴影 或 亮度 效果 ; 

。 表面 标记 或 纹理 。 

所 有 这 四 种 图 像 轮 廓 依 各 自 的 方式 提供 了 关于 表面 形状 的 信息 。 然 而 ， 关 于 推断 哪 一 类 边 
构造 了 图 像 轮 廊 的 规则 仍然 有 很 大 的 不 同 。 这 给 自然 图 像 编码 和 解码 的 研究 带 来 了 挑战 。 

为 了 获得 自然 图 像 的 高 阶 统计 信息 ， 显 然 ， 我 们 必须 把 非 线 性 引入 PCA* 。 在 下 面 的 章节 
中 ， 我 们 讨论 一 个 能 够 实现 此 目标 的 有 较 高 计算 效率 的 自 适应 方法 。 
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8.10 核 Hebb 算法 


在 前 面 几 节 的 讨论 中 ， 我 们 知道 : 

高 阶 统计 信息 对 于 自然 图 像 的 结构 编码 ORE) 是 特别 重要 的 。 

另外 ， 自 然 图 像 十 分 复杂 ， 在 这 种 情况 下 ， 包 含 在 自然 图 像 数 字 表 示 中 的 像素 的 数量 会 很 
高 ; 这些 像 素 的 数量 定义 了 图 像 空 间 的 维 数 ， 其 中 每 个 样本 图 像 仅 被 表示 成 一 个 点 。 因 此 ， 如 
果 一 个 机 器 要 学 习 自 然 图 像 模 型 ， 那 么 需要 用 大 量 的 样本 来 训练 此 机 器 。 

现在 ， 回 想到 核 PCA 是 一 个 批量 学 习 算法 ， 我 们 发 现 对 于 核 矩 阵 的 存储 和 操作 达到 六 复 
杂 度 ， 其 中 N 是 训练 样本 的 数量 。 因 此 ， 当 需要 模拟 自然 图 像 的 时 候 ， 核 PCA 算法 的 时 间 复 
杂 度 是 极 大 的 。 

为 了 降低 计算 复杂 度 ， Kim 等 (2005) 利用 广义 Hebb 算法 的 非 监督 在 线 学 习 能 力 ， 设 计 
了 和 迭代 算法 ， 计 算 核 PCA。 这 个 算法 ， 叫 核 Hebb 算法 (KHA)， 能 够 在 线性 存储 复杂 度 的 条 
件 下 计算 核 主 分 量 。 不 同 于 核 PCA，KHA 能 够 适应 于 非 监督 的 大 规模 学 习 问 题 。 
KHA 的 推导 

考 虚 训练 样本 {x;}%,， 我 们 可 以 推导 GHA 的 更 新 规则 ， 在 特征 空间 中 ， 如 式 (8. 79) 和 式 
(8. 80) 所 示 ， 

yin) = wi Cn) 中 (xCz))， j= 1,2,.,l (8. 111) 

和 


Aw; n) = 1136 BOD) ~ 9460) Dw 94 J 5 一 1,2，, (8.112) 


我 们 选择 p 作为 代替 的 下 标 ， 以 避免 与 核 的 标记 混淆。 与 前 面相 同 ，Aw; (27 和 x(n), 
分 别 在 时 间 nn 时， 对 权 值 向 量 的 更 新 和 对 输入 向 量 的 更 新 。7 是 学 习 参 数 ,下 标 l 表示 输出 的 
数量 。 因 为 特征 空间 的 高 维 数 ， 我 们 可 能 无 法 直接 使 用 式 (8. 112) 。 然 而 ， 从 核 PCA 方法 中 ， 
我 们 得 知 w 可 以 由 在 特征 空间 中 的 训练 样本 展开 ， 即 ， 


wi = Da, $(x;) (8. 113) 
其 中 。 是 展开 系数 。 使 用 式 (8. 111) 和 式 (8. 112) 中 的 公式 ， 可 以 得 到 如 下 两 个 更 新 规则 ， 
y(n) = Yay (nd $7 0) Pa), j= 1,2,,l (8. 114) 
a 5 
D Aas Cn) (x;) = q ym) oxn) — y; Cn) > De dcx) | ， j= 1,2,°,l 
(8. 115) 


8] A Mercer 核 的 定义 ， 有 
h(x; x(n)) 一 中 (xi) 中 (x(Ca))， i 一 1,2 ,和 N 
另外 ， 我 们 可 以 规定 如 下 两 种 可 能 的 条 件 : 
C1) Hx) 一 x; 时 ， 即 训练 集中 输入 向 量 x(w) 的 下 标 是 i。 
(ii ) 在 x(n) 关 x; 时 ， 即 条 件 (i) 不 满足 。 
通过 去 除 式 (8. 115) 中 外 层 关于 下 标 i 的 求 和 ， 得 到 如 下 的 关于 系数 {a; } 的 更 新 规则 Kim 
等 ，2005) : 


N 
yw = Pa (MRO x), 了 一 2， (8. 116) 
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和 
yi D — y(n) > an Cn) yp n) 如 果 x(n) = x; 
Aa; (n) = , p= (8.117) 
— pin) X an (n) y(n), to R x(n) Æx 
p=l 


其 中 j=1.2,,0 且 i 二 1,2,…,N。 如 同 其 他 的 核 方 法 ,我们 在 再 生 核 Hilbert 空间 
(RKHS) 中 实现 KHA。 

对 于 核 PCA， 必 须 保证 核 向 量 集 {中 (x;)} 六 ,具有 零 均值 ， 习题 8. 15 对 于 在 批量 算法 中 的 
问题 给 出 了 一 种 解决 办 法 。 对 于 如 KHA 之 类 的 在 线 学 习 算 法 ， 必 须 使 用 一 个 滑动 的 均值 去 适 
应 输入 分 布 中 的 变化 。 

另 一 个 就 是 关于 KHA 收敛 性 的 问题 。 因 为 KHA 是 由 GHA 推导 出 来 的 ， 我们 可 以 说 ， 
鉴于 8.6 TPKE CREME. 我 们 得 知 在 学 习 参 数 足够 小 的 前 提 下 ，KHA 是 局 部 收 
SH) 
案例 研究 : 多 块 图 像 去 噪 

当 说 到 复杂 图 像 时 ， 一 个 经 常 考虑 的 例子 就 是 从 自然 场景 图像 中 取 块 。 当 图 像 具 有 多 个 块 
时 ， 对 这 样 的 图 像 建 模 就 是 极 有 挑战 性 的 工作 。 事 实 上， 在 8.7 节 中 讨论 到 的 Lena BERA 
有 多 个 块 ， 因 此 作为 图 像 去 品 学 习 中 的 基本 实例 。 

这 个 实例 学 习 由 Kim 等 给 出 (2005)’, HIT KHA 与 其 余 6 种 去 品 方 法 比较 。 特 别 地 ， 两 
种 不 同 的 Lena 图 像 被 构造 : 

(1) 在 256X256 的 Lena 图 像 中 加 入 白 高 斯 噪声 ， 产 生 了 7. 72dB WRR (SNR). 

(2) 在 同样 的 图 像 中 加 入 椒盐 噪声 ， 制 造 出 4. 92dB 的 信 噪 比 。 

对 于 这 两 个 图 像 中 的 每 一 个 ,我 们 在 两 个 像素 正则 区 间 取 12X12 的 有 和 覆盖 的 图 像 块 。 

我 们 基于 核 PCA 算法 ,假定 高 斯 核 的 宽度 为 1(c 二 1)， 使 用 KHA 算法 (学习 参数 设立 为 
7 一 0.05) 对 通过 带 曲 声 的 Lena 图 像 数 据 大 约 800 次 扫描 得 到 的 样本 建 模 。 通过 变化 的 参数 ~， 
使 用 每 一 个 核 PCA 模型 中 的 前 上 个 主 分 量 去 噪 重 构 原 始 Lena 图 像 。 

为 了 方便 比较 ， 我 们 使 用 均值 过 滤 方 法 : Matlab 中 的 Wiener IIE, ， 基 于 小 波 的 方法 
和 线性 PCA 算法 来 同 去 噪 核 PCA 作 比 较 。 另 外 ， 以 下 两 种 方法 被 用 来 作 比 较 : 

e Pizurica 和 Philips 算法 (Pizurica and Philips，2006)， 使 用 附加 高 斯 噪声 估计 概率 ， 

此 概率 由 小 波 子 空间 中 的 给 定 系 数 包 含 的 无 噪 分量 表 出 。 
。 Choi 和 Baraniuk 算法 (Choi and Baraniuk，1999)， 通 过 把 噪声 信号 投影 到 小 波 域 的 
Besov 空间 "” ， 获 得 原始 信号 的 估计 。 

实验 结果 在 图 8. 14 和 图 8. 15 中 给 出 ， 以 下 所 有 观察 都 由 Kim 等 (2005) 给 出 : 

a) 对 于 图 8. 14 中 附加 高 斯 白 品 声 (AWGN) 情况 下 ， 由 Pizurica 和 Philips 算法 得 到 的 
较 好 去 噪 效果 和 图 8. 15 中 附加 椒盐 噪声 情况 下 ， 由 均值 过 滤 法 得 到 的 较 好 去 品 效 果 可 归 因 于 
使 用 了 相关 噪声 源 的 统计 信息 这 一 先 验 知 识 。 

(2) 在 另外 一 种 情况 下 ( 即 Pizurica 和 Philips 算法 在 附加 椒盐 噪声 情况 下 ， 以 及 均值 过 
滤 法 在 附加 高 斯 白 噪声 情况 下 ) ， 这 两 种 去 噪 方法 的 性 能 有 所 下 降 ， 这 证 明了 依赖 于 先 验 知识 
的 风险 。 

(3) 如 图 8. 14 和 图 8. 15 所 示 ，KHA 算法 对 于 每 种 噪声 效果 都 很 好 ， 这 个 结果 说 明 如 果 
没有 关于 附加 噪声 特点 的 信息 时 ，KHA 算法 是 一 个 很 好 的 选择 。 
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i) 
图 8.14 对 混 人 高 斯 噪声 的 图 像 去 噪 。a) 原始 Lena 图 像 ; bd 加 入 噪声 的 图 像 ，c) 均值 过 滤 
法 ; d Matlab 中 的 小 波 去 品 法 ; e) Matlab 中 的 Wiener 过 滤 法 ; |) Choi 和 Barani- 
uk 算法 ; g) Pizurica 和 Philips 算法 ; hb) PCA(r=20); i) KHACr=40) (此 图 片 的 
复制 得 到 了 K. I Kim 博士 的 允许 ) 





d) f) 

图 8.15 ”对 混 人 椒盐 噪声 的 图 像 去 噪 。a) 原始 Lena 图 像 ，b) 加 入 噪声 的 图 像 ; c) 均值 过 滤 
法 ; d Matlab 中 的 小 波 去 噪 法 ; e) Matlab 中 的 Wiener WR; f) Choi 和 Baraniuk 
算法 ; g) Pizurica 和 Philips 算法 ，h) PCA(r=20); D KHACr=20) (此 图 片 的 复制 
得 到 了 K. 1. Kim 博士 的 允许 ) 
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图 8.15 ( 续 ) 


最 后 ，KHA 算法 是 一 个 在 线 非 监督 学 习 算 法 ， 因 此 具有 两 个 额外 的 优点 : 

。 作为 一 个 在 线 学 习 算 法 ， 计 算 复 杂 度 较 小 。 

。 作为 非 监督 算法 ， 不 需要 类 标 信 息 ， 避 免 了 在 监督 学 习 中 收集 类 标 所 耗费 的 时 间 和 
精力 。 


8. 11 小 结 和 讨论 


在 非 监督 学 习 中 一 个 重要 的 问题 就 是 ， 如 何 为 学 习 过 程 设计 一 个 性 能 评价 或 代价 函数 来 
产生 一 个 起 到 监督 作用 的 内 部 信号 ， 使 得 网 络 能 够 预测 或 重建 其 本 身 的 输入 。 在 主 分 量 分 析 
中 ， 代 价 函 数 是 误差 向 量 的 均 方 值 ， 这 里 误差 向 量 定义 为 输入 向 量 〈 假 定 为 零 均 值 ) 和 重 构 
向 量 之 间 的 差别 。 我 们 的 目标 是 在 如 下 两 个 正 交 约 束 下 关于 一 组 自 适应 的 系数 最 小 化 该 代价 
函数 : 

(1) 规范 化 ， 即 每 个 特征 向 量 都 是 单位 长 度 的 ; 

(2) 正 交 性 ， 即 任意 两 个 不 同 的 特征 向 量 相互 正 交 。 

习题 8. 3 研究 了 用 此 方法 来 推导 PCA， 作 为 8. 4 节 中 扰动 理论 的 补充 。 

维 数 约 简 

PCA 算法 最 为 重要 的 应 用 就 是 维 数 约 简 ， 其 内 容 在 式 (8. 28) 和 式 (8. 29) 中 总 结 了 。 为 了 
讨论 的 方便 ， 我 们 在 此 处 重 写 这 两 个 等 式 。 

(1) 数据 表示 。 给 定 一 个 m 维 的 数据 向 量 x， 式 (8. 29) 指 出 x 可 以 由 一 个 / 维 的 主 分 量 向 
量 表示 : 


ay, qi 
a= eal o X, l<m 
at qf 
其 中 q 是 如 下 的 mXm 协 方差 矩阵 的 第 ; 个 特征 向 量 。 
R 一 ELxx7] 


a 是 向 量 a 的 第 ; 个 分 量 ， 是 数据 向 量 x 在 第 i 个 特征 向 量 a 上 的 投影 。 如 果 /一 mm， 则 新 
得 到 的 向 量 a 是 原始 数据 向 量 x 的 旋转 形式 ; 且 它 们 之 间 实 质 性 的 不 同 在 于 a 有 无 关 的 分 量 ， 
而 Xx 没有。 如 果 /<<m， 那 么 仅 保 留 一 个 特征 向 量 的 子 集 ， 以 用 来 近似 地 表示 数据 。 在 这 种 情 
况 下 ， 我 们 说 是 维 数 约 简 。 

(2) 数据 重 构 。 给 定 主 分 量 向 量 a， 式 (8. 28) 指 出 原始 数据 x 可 以 由 特征 向 量 线性 组 合 的 
形式 被 重 构成 ， 
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其 中 ai ,az，…a 是 分 量 系数 。 这 里 ， 如 果 ! 一 各， 则 重 构 是 准确 的 ; 而 如 果 /二 m， 那 么 重 构 是 
近似 的 。 误 差 向 量 : 

e 一 X 一 六 
满足 正 交 性 的 原则 ， 即 误差 向 量 e 与 估计 值 x# 正 交 。 因 此 ， 我 们 说 估计 值 # 是 最 小 均 方 误差 意义 
下 的 最 优 估计 值 (Haykin，2002)。 确 定 约 简 维 数 1 的 一 种 最 佳 方法 就 是 在 第 2 章 中 讨论 的 最 
小 描述 长 度 (MDL) 准则 。 

PCA 的 一 个 在 维 数 约 简 下 的 应 用 是 去 骂 。 在 这 个 应 用 中 ， 数 据 向 量 x 由 信号 分 量 s 和 附加 
高 斯 白 噪 声 v 组 成 。 我 们 的 目标 就 是 在 最 优 意 义 下 最 小 化 噪声 的 影响 。 用 表示 向 量 x 所 在 的 
on 维 数据 空间 。 给 定 x, PCA 把 空间 &% 分 成 两 个 互相 正 交 的 子 空间 : 

。 信号 子 空间 5S。 信 号 分 量 的 估计 值 ， 由 $ 青 示 ， 位 于 此 空间 5S 中 。 估 计 值 $ 与 # 在 维 数 约 简 

中 起 到 相似 的 作用 。 
。 噪声 子 空间 NM。 了 噪声 分 量 的 估计 值 ， 由 娘 示 ， 位 于 此 空间 N 中 。 人 估计 值 ?与 e 在 维 数 约 
简 中 起 到 相似 的 作用 。 

PCA 的 另外 一 个 应 用 是 数据 压缩 。 在 此 应 用 中 ， 我 们 的 目标 是 尽 可 能 多 地 保存 输入 数据 
集中 的 信息 。 给 定 一 个 m 维 的 数据 向 量 x，PCA 通过 对 输入 数据 空间 进行 子 空间 分 解 实现 此 
目标 。 此 输入 数据 空间 的 前 LS Ob Fm) 主 分 量 提 供 一 个 线性 上 映射。 此 映射 在 最 小 均 方 误差 
意义 下 是 最 优 的 ， 其 对 原始 数据 空间 进行 重 构 。 另 外 ， 基 于 前 /个 (小 于 m ER BH RAI 
随意 的 子 空间 表示 要 好 ， 因 为 输入 空间 的 主 分 量 是 按 特 征 值 大 小 降序 排列 的 ， 或 者 说 按 方差 大 
小 降序 排列 的 。 相 应 地 ， 如 在 8. 7 节 中 的 图 像 编码 实例 学 习 中 讨论 的 那样 ， 我 们 可 以 通过 使 用 
最 大 数值 精度 编码 输入 数据 空间 第 一 个 主 分 量 ， 而 用 较 小 的 精度 编码 剩 下 的 /一 1 个 分 量 ， 来 
最 优 地 实现 基于 主 分 量 分 析 的 数据 压缩 。 
关于 无 监督 学 习 的 两 个 观点 

L 自 底 向 上 的 观点 。 局 部 性 的 概念 在 8. 2 节 讨 论 的 自 组 织 的 前 三 个 原则 〈 即 自 增 强 原则 、 
竞争 原则 和 合作 原则 ) 中 起 到 重要 的 作用 。 这 三 个 原则 代表 自 下 而 上 学 习 ， 其 动机 是 形成 一 
学 习 过 程 模型 。 这 样 一 个 建 模 方法 在 无 监督 神经 网 络 中 已 用 到 过 。 比 如 8. 5 节 和 8.6 节 分 别 讨 
论 的 Hebb 最 大 特征 过 滤 算 法 和 广义 Hebb 算法 。 

另 一 方面 ， 在 导言 里 我 们 指出 ， 机 器 学 习 中 不 强调 局 部 性 。 这 一 缺乏 自 组 织 的 特性 反 过 来 
意味 着 非 监 督 机 器 学 习 中 自 底 向 上 的 计算 智能 不 起 作用 。 

2. 自 顶 向 下 的 观点 。 由 通过 自 组 织 原则 对 无 监督 学 习 问 题 建 模 ， 我 们 转向 自 适 应 参数 
( 即 权 值 ) 的 角度 分 析 问 题 。 具 体 地 ， 给 定 一 个 无 类 标 样 本 ， 我 们 在 学 习 过 程 中 施加 的 约束 下 
最 小 化 代价 函数 。 第 二 阶段 蕴 合 的 理论 就 是 自 顶 向 下 ， 就 如 同 神经 网 络 一 样 。 最 大 特征 过 滤 算 
法 和 广义 Hebb 算法 的 选 代 公式 就 是 无 监督 学 习 此 观点 的 实例 。 

另 一 方面 ， 机 器 学 习 限 制 无 监督 学 习 其 本 身 为 自 顶 向 下 的 过 程 。 为 了 弥补 对 自 组织 的 强调 
的 缺乏 ， 在 统计 机 器 学 习 中 分 析 工 具 已 经 被 有 效 地 使 用 。 这 个 无 监督 学 习 方 法 的 例子 在 8. 9 7 
中 通过 核 PCA 的 方式 给 出 。 

不 论 无 监督 学 习 如 何 实现 ， 它 都 是 自 顶 向 下 的 。 其 输入 数据 所 包含 的 内 在 结构 信息 (AA 
织 原 则 4) 可 以 被 探查 到 。 
神经 生物 的 核算 法 

核算 法 ， 比 如 说 核 PCA， 是 比较 节省 计算 时 间 的 。 这 是 因为 这 些 算法 有 能 力 处 理 包含 在 
输入 数据 中 的 特定 的 高 阶 信息 。 但 是 ， 典 型 地 ， 这 些 算法 都 遇 到 维 数 灾 的 问题 。 即 此 类 问题 的 
计算 复杂 度 (由 于 各 种 各 样 的 原因 ) 随 着 输入 数据 空间 的 维 数 指数 级 增长 。 

例如 ， 考 虑 图 像 压 缩 的 问题 。 不 幸 的 是 ， 原 始 版 本 的 核 PCA 的 计算 复杂 度 使 得 其 在 实际 
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图 像 问题 (如 人 脸 和 自然 图 像 》 中 应 用 受到 局 限 。 然 而 ， 通 过 对 广义 Hebb 算法 (GHA) 核 
化 ， 即 在 8. 10 节 中 讨论 的 核 Hebb 算法 (KHA)， 我 们 得 到 一 个 迭代 的 无 监督 学 习 算 法 ,可 
以 在 线性 计算 复杂 度 的 条 件 下 估计 核 主 分 量 。 正 如 8. 10 节 中 谈论 到 的 图 像 去 噪 问题 ， 证 明了 
此 类 非 监督 算法 的 性 能 可 以 与 监督 学 习 算 法 的 性 能 相 比 。 因 此 ， 我 们 可 以 说 ， 通 过 使 用 欠 代 的 
核 化 PCA 算法 ， 我 们 不 仅 在 某 种 意义 下 避免 了 维 数 灾 的 问题 ， 而 且 在 仅 使 用 无 类 标 数据 的 情 
况 下 ， 就 解决 了 图 像 去 噪 问题 。 

从 此 讨论 中 ， 我 们 得 到 一 个 有 效 的 信息 : 

通过 核 化 (基于 统计 学 习 理 论 ) 神经 生物 非 监督 信息 算法 ， 我 们 可 以 得 到 许多 有 用 的 
东西 。 

在 下 一 章 中 ， 关 于 神经 生物 学 导出 的 自 组 织 映射 网 络 ， 我 们 将 描述 与 本 章 不 同 的 另 一 类 核 
化 的 应 用 。 


注释 和 参考 文献 


L 在 多 元 分 析 中 ， 主 分 量 分 析 (PCA) 或 许 是 最 早 的 和 最 有 名 的 方法 (Jollife,1986; Preisendorfer,1988)。 最 
ry Pearson (1901) 引入 ， 在 生物 学 背景 下 他 用 它 来 重建 线性 回归 分 析 的 新 形式 。 后 来 Hotelling (1933) 
在 做 心理 测验 时 将 它 发 展 。Karhunen (1947) 在 概率 论 框架 下 再 次 独立 地 讨论 了 它 ; 随后 被 Loeve (1963) 
推广 。 

2. 突 触 增强 和 抑制 。 我 们 认识 到 正 相关 的 行为 有 助 于 突 触 增强 ,而 无 关 或 负 相 关 的 行为 导致 突 触 减弱 

(Stent，1973) 。 基 于 此 ， 我 们 推广 Hebb 修正 的 概念 。 突 触 减弱 同样 可 能 是 一 个 非 活 性 的 类 型 。 特 别 地 ， 
对 于 突 触 减弱 的 交互 条 件 可 能 仅仅 是 非 同 时 的 先 突 触 或 后 突 触 行为 。 
我 们 可 以 进一步 把 突 触 修正 规则 分 类 成 Hebb M3 Hebb 规则 (Palm，1992)。 据 此 ， 一 个 Hebb 突 触 随 着 
正 相关 的 前 突 触 或 后 突 触 信号 增强 ， 随 着 无 关 或 负 相 关 信 号 而 减弱 。 在 Hebb 和 逆 Hebb 突 触 中 ， 对 突 触 修 
正 的 有 效 性 依赖 于 一 个 与 时 间 独 立 的 、 高 度 局 部 性 的 和 有 强 交互 性 的 机 制 。 在 此 意义 下 ,一 个 逆 Hebb 突 
触 自然 是 Hebb 突 触 的 ， 尽 管 功能 上 说 不 是 如 此 。 另 一 方面 ， 一 个 非 Hebb 突 触 ， 不 包含 Hebb 机 制 中 的 任 
何 一 点 。 

3. 协 方差 假定 。 一 种 克服 Hebb 假定 局 限 性 的 方法 就 是 使 用 在 Sejnowski (1977a, b) 中 介绍 的 协 方差 假定 。 
ERBER P, EAG. 2) 中 的 前 突 触 和 后 突 触 信号 被 通过 从 它们 各 种 在 以 特定 时 间 段 内 的 均值 中 分 离 出 的 前 
突 触 和 后 罕 触 信号 所 替代 。 用 工 和 了 分 别 表示 前 突 触 信号 x; 和 后 突 触 信号 y 的 平均 时 间 值 。 根 据 协 方差 
假设 ， 突 触 权 值 的 调整 值 ws 由 此 定义 : 

- Awy = Wx; — T) Cn y) (A) 
其 中 wy 是 学 习 参 数 。 均 值 二 和 3 分 别 构成 了 前 突 触 和 后 突 触 阐 值 ， 其 决定 了 突 触 修 正 的 符号 。 特 别 地 ， 协 
方差 假设 有 以 下 性 质 : 
。 KB PIER RRA, MH r =z Ry; =y At 
达到 收敛 。 Awy 
。 预测 突 触 增 强 〈 即 突 触 强度 的 增加 ) AS fk 
〈 即 突 触 强度 的 减少 ) 。 
A 给 出 了 Hebb 假定 和 协 方差 假定 的 不 同 。 在 这 两 
种 例子 中 ，Arws 关于 y 的 依赖 都 是 线性 的 ; 然而 ， 0 
在 Hebb 假定 中 ， 关 于 y 轴 的 截 距 在 原点 ， 在 协 方 
差 假 定 中 ， 截 距 在 y; 二 3 处 。 
从 式 (A) 中 得 到 如 下 的 重要 观点 : 一 0 
C1) 如 果 存 在 充分 层次 的 前 突 触 和 后 突 触 行为 〈 即 
条 件 DTA yy 同时 满足 )， 突 触 权 值 ws 则 
会 加 强 。 
D 当 以 下 两 种 条 件 之 一 成 立时 ， 突 触 权 值 ws 
EM: 








斜率 =1x6 
斜率 =W5- 悦 “一 协 方差 假定 


平衡 点 = 后 突 触 行为 y 


图 A 描述 Hebb 假定 和 协 方差 假定 示例 
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。 一 个 前 突 触 行为 〈 即 oD 缺乏 充分 的 后 突 触 行为 〈 即 on <>); 

。 或 一 个 后 突 触 行为 ( 即 >y) 缺乏 充分 的 先 突 触 行为 〈 即 rT. 
这 种 行为 可 能 被 认为 在 输入 模式 之 间 的 暂时 性 竞争 。 
.历史 注解 。 早 在 1989 年 Sanger 的 GHA 发 表 之 前 ，Karhunen 和 Oja (1982) 发 表 了 一 篇 会 议论 文 ， 描 述 了 
一 个 叫做 静态 梯度 算法 (SGA)， 用 于 减少 PCA 的 特征 向 量 。 后 来 有 人 证 明 SGA 与 GHA 非常 接近 。 
. 小波。 在 本 书 的 序言 中 ，Mallat (1998) 有 以 下 的 论断 : 
小 波 并 非 基于 新 的 四 想 ， 而 是 基于 在 许多 不 同 领域 中 不 同形 式 的 已 有 的 概念 。 小 波 理论 的 形成 和 出 现 是 多 
种 学 科 努 力 的 结果 ， 其 包括 数学 、 物 理 、 工 程 这 三 门 被 认为 是 独立 发 展 相 同 思 想 的 学 科 。 对 于 信号 处 理 ， 
此 关联 创立 了 一 系列 的 观点 ， 其 意义 超出 了 新 基 或 变换 的 构造 。 
用 yt) 表示 一 个 零 均 值 的 函数 ， 如 下 : 


F pCt)dt = 0 


函数 PORR- PMP ERR R MK: 这 样 一 个 函数 可 以 称 之 为 小 波 。 此 小 波 被 规模 参数 BRK, A 
随时 间 人 参数“ 平移; 我们 可 以 写成 : 


puto = 299 
给 定 一 带 傅 里 时 变换 GC/) 的 实 值 信号 g(t1)，g(1) 的 连续 小 波 变 换 由 积分 形式 的 内 积 所 定义 ， 
W, (tas) = (dust) g(t) = | eg Dd 
根据 此 公式 ， 小 波 变换 OBS g(1) 相 关 。 等 价 于 
W, (ass) = (Wf GN) = F epon Pas 


其 中 u DE p OME BR, ERRAR. We, MERER Ws (u,s) 依 赖 于 信号 ORE 
叶 变换 G( 户 在 时 频 域 上 的 值 。 其 中 办,:(D 的 能 量 和 它 的 傅 里 叶 变 换 必 ,:( 亡 是 有 关联 的 。 
读者 若 想 更 深层 次 地 了 解 小 波 变 换 ， 可 以 参考 Mallat (1998) 和 Daubechies (1992, 1993) 的 书 。 而 Meyer 
(1993) 的 简介 性 的 书包 括 小 波 变 换 的 历史 发 展 过 程 。 
. FRM PCA 方法 。 
这 些 方 法 可 以 被 归 人 四 类 网 络 : 
(1) Hebb 网 络 ， 用 非 线性 神经 元 代替 基于 Hebb 规则 的 PCA 算法 的 线性 神经 元 得 到 (Karhunen and Jout- 
sensalo, 1995), 
D 复制 器 网 络 或 自动 编码 器 ， 建 立 在 多 层 感 知 器 基础 上 ， 包 括 三 层 隐藏 层 〈KKramer，1991) : 
。 映射 层 ; 
。 HRSA; 
。 HEj. 
复制 器 网 络 在 第 4 章 讨论 。 
(3) 主 曲线 ， 基 于 捕获 数据 结构 的 曲线 或 曲面 的 迁 代 估计 (Hastie and Stuetzle，1989)。 自 组 织 映 射 可 被 看 
做 发 现 主 曲线 离散 逼近 的 计算 过 程 ;， 自 组 织 映 射 在 下 一 章 讨论 。 
(4) 核 PCA。 源 于 Scholkopf 等 〈1998) ， 在 本 章 的 8. 8 节 中 讨论 。 
. 在 Kim et al. (2005)， 图 像 去 噪 实验 的 结果 ， 包括 KHA 算法 ,体现 了 如 下 几 点 : 
。 AR 〈 单 块 ) BRN MRAM; 
。 自然 场景 的 多 块 超 限 分 辨 图 像 。 
. 中 值 滤波 器 是 一 个 关于 如 下 的 绝对 误差 代价 函数 最 小 化 贝 叶 斯 风险 的 估计 算 子 ;: 
Rleln)) = |e | 
其 中 em LGR BASH, va RW BS BUS Jay eS A SD dB FX 结果 表明 此 最 小 值 就 是 后 验 
概率 密度 函数 的 中 值 ， 此 滤波 器 也 因此 得 名 。 
， 自 适应 Wiener BKB. Wiener 滤波 器 在 第 3 章 讨论 过 。 在 自 适应 Wiener 滤波 器 中 ， 训 练 样本 Lx CG), 
dcn)} 忆 ;被 分 为 一 系列 连续 的 带 类 标 数 据 块 。 并 且 滤 波 器 参数 在 块 乘 块 的 基础 上 ， 使 用 规范 等 式 〈 或 离散 
形式 的 Wiener Hopf ER) 计算 。 实 际 上 ， 在 每 一 块 内 ， 数 据 被 看 成 伪 静 态 的 。 每 一 训练 样本 的 统计 变化 
显示 了 滤波 器 参数 在 每 一 块 上 发 生变 化 。 
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10. Sobolev 空间 由 空间 中 所 有 具有 om 阶 导 数 的 函数 组 成 。 并 且 在 此 空间 中 ， 所 有 m 阶 导 数 都 是 绝对 可 积 的 


(Vapnik, 1998), Bezov 空间 包含 第 三 个 参数 ， 并 在 mm 一 1 和 和 一 co 时 ， 精 简 了 光滑 性 条 件 。 


习题 
竞争 和 合作 


8.1 


在 自 组 织 系 统 中 ， 包 含 竞争 和 合作 。 我 们 发 现 竞争 先 于 合作 。 证 明 此 论断 的 合理 性 。 


主 分 量 分 析 : 约束 优化 方法 


8. 2 


8. 3 


在 8.4 节 中 ， 我 们 使 用 扰动 理论 来 推导 PCA。 在 此 习题 中 ， 我 们 从 一 个 约束 最 优化 方法 的 角度 ， 来 解决 
同样 的 问题 。 
令 x 表 示 一 个 m 维 零 均值 的 数据 向 量 ，w 表示 同样 m 维 的 可 调整 的 参数 向 量 。 令 呈 表示 数据 向 量 x 在 
参数 向 量 w 上 投影 的 方差 。 
(a) ERE |wi =1 的 约束 条 件 下 ， 拉 格 朗 日 最 大 化 方差 上， 由 如 下 定义 : 
J(w) = w 'Rw— ACw'w — 1) 

其 中 R 是 数据 向 量 x 的 协 方差 矩阵 ，4 是 拉 格 朗 日 乘 子 。 

(b) 使 用 8. 2(a) 的 结果 ， 证 明 关 于 w 的 拉 格 郎 日 函数 J(w) 最 大 解 由 如 下 的 特征 方程 所 定义 ， 
Rw = Aw 

因此 ， 说 明 二 EF[Cw7x)*] 二 +4。 在 特征 分 解 中 ，w 是 特征 向 量 ,，4 是 相应 的 特征 值 。 
(c) OHARA FF A: 表示 对 于 第 i 个 特征 向 量 的 规范 化 条 件 ‖ will=1. ORB ART Ay ER IER 

条 件 ww 一 0。 证 明 拉 格 朗 日 函数 此 时 有 如 下 的 扩展 形式 : 





i=l 
J(w;) = wi Rw, — ag CwWhw — 1) — ay wi wy, , i= 1,2, m 


因此 ， 证 明 最 大 化 JG) 这 普 个 等 式 的 解 正 好 为 对 应 于 特征 值 X; 的 特征 向 量 w 。 
令 闷 维 零 均 值 数据 向 量 x 的 估计 由 如 下 的 等 式 定义 


H. asaz sa 是 系数 ， 受制 于 如 下 条 件 : 
1 Asi 
wo 一 |。 se 
证 明 关 于 可 变 系 数 对 如 下 均 方 误差 的 最 小 值 ; 
JQ) 一 EL x-% 17] 
就 是 所 定义 的 第 i 个 主 分 量 
a; 一 qx, i = 1,2,-51 
即 数据 向 量 x 在 特征 向 量 g 上 的 投影 。 
根据 问题 8. 2 中 讨论 的 约束 最 优化 问题 ， 考 虑 拉 格 朗 日 函数 : 
Jw) = (wx) 一 MCw WwW 一 1]) 
其 中 (wrx): 表示 零 均 值 数 据 向 量 x 在 权 值 向 量 w 上 的 投影 的 方差 的 瞬时 值 。 
(a) 估计 拉 格 良 日 函数 JCw)? 关 于 可 变 权 值 w 的 梯度 ， 有 


gw) 一 of = 2(w'x)x— 2Aw 
(b) 对 于 在 线 学 习 的 静态 梯度 下 降 算 法 ,我 们 有 如 下 权 值 更 新 公式 : 
(a 十 1 = Wn) + QW) 


其 中 7 了 是 学 习 参 数 。 因 此 ， 可 以 推出 迭代 公式 : 
n +1) = Wn) + gl (x(n) x7 (n)) WO) — WT Cn) (x(n) x? Cn)) Wn) Hn) ] 


这 是 式 (8. 47) 的 重 写 ， 定义 了 关于 离散 时 间 n 的 最 大 特征 滤波 ， 而 刹 (nn) 代替 了 wm). 


基于 Hebb 的 最 大 特征 滤波 器 


8.5 


对 于 例 2 中 考虑 的 匹配 滤波 器 ， 特 征 值 和 对 应 的 特征 向 量 为 q ， 定 义 为 
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且 


证 明 这 些 参数 满足 基本 的 关系 ， 
Ro 一 和 中 
其 中 RR 为 输入 向 量 的 相关 和 矩阵 。 
8.6 考虑 最 大 特征 滤波 咒 ， 其 中 权 值 向 量 w(n) 按 照 式 (8. 46) 演 化 。 证 明 随 着 趋向 于 无 穷 大 ， 滤 波 器 的 输出 
方差 趋向 于 Amo HP Xmox 为 输入 向 量 相 关 和 矩阵 的 最 大 特征 值 。 
8.7 次 分 量 分 析 (minor components analysis, MCA) 与 主 分 量 分 析 是 相反 的 。 在 MCA 中 ， 我 们 寻找 投影 方 
差 最 小 的 方向 。 这 样 得 到 的 方向 对 应 于 输入 向 量 Xo KERE R 的 最 小 特征 值 的 特征 向 景 。 
在 本 题 中 ， 我 们 探讨 怎样 修改 8. 4 节 的 单个 神经 元 发 现 及 的 次 分 量 。 特 别 地 ， 我 们 可 以 对 式 (8. 40) 的 学 
习 规 则 改变 符号 ， 得 到 (Xu 等 ，1992) : 
wila +1) = w Cn) — pn) (2; (0) — yn) wi (n)) 
证 明 如 果 相 关 和 矩阵 R 的 最 小 特征 值 4 重 数 为 1， 则 : 
lim w(n) = 74m 
其 中 wn) 是 权 值 向 量 ， 第 i 个 分 量 是 w (n)，qm BSA, 对 应 的 特征 向 量 。 
基于 Hebb HER ERM 
8.8 构造 一 个 信和 号 流 图 表示 向 量 值 等 式 (8. 87) MIA (8. 88). 
8.9 在 8.5 节 描述 的 用 于 收敛 性 分 析 的 常 微 分 方程 方法 不 能 直接 用 于 广义 Hebb 学 习 算 法 (GHA)。 然 而 ， 
通过 将 式 (8. 91) 的 突 触 权 值 矩 阵 w(z)? 用 W(a) 的 列 向 量 的 组 合 来 表示 ， 则 我 们 可 以 用 通常 的 方式 解释 更 
新 函数 ， 然 后 继续 应 用 渐进 稳定 性 定理 。 因 此 ， 根 据 此 处 已 有 的 说 明 ， 证 明 GHA 算法 的 收敛 性 定理 。 
8.10 在 这 个 习题 中 ， 我 们 可 以 探讨 利用 广义 Hebb 算法 来 研究 随机 输入 向 量 产生 的 二 维 接收 域 (Sanger, 
1990) 。 随 机 输入 包含 独立 于 高 斯 噪声 具有 零 均值 和 单位 方差 的 二 维 域 ， 它 与 高 斯 掩 模 〈 滤 波 器 ) 作 卷 
积 ， 然 后 乘 以 一 个 高 斯 窗 。 高 斯 掩 模 有 两 个 像素 的 标准 人 和 偏差， 高 斯 窗 有 8 个 像素 的 标准 偏差 。 在 位 置 
(r,s) 的 结果 随机 输入 co STURM: 
a(rys) = m(r,s) (gros) * wlr,s)] 
其 中 wr,s) 是 独立 和 同 分 布 的 高 斯 旧 声 的 域 ，g(r,s) 是 高 斯 掩 模 ，m(r,s) 是 窗 函 数 。g(r,s) 和 wlr,s) 
的 循环 卷 积 由 下 式 定义 ， 


N-1 AN 一 1 
grs) * wirs) = >) >》)g( 力 ,qg)zu(r 一 力 ,5 一 9) 
p=0 g=0 


其 中 g(r,s) 和 wlr,s) 均 假设 为 周期 的 。 
用 随机 输入 z(r,s) 的 2 000 个 样本 训练 基于 GHA 算法 的 单 层 前 馈 网 络 。 网 络 有 4 096 个 输入 ,排列 成 
64X64 像素 网 格 ， 具 有 16 个 输出 。 训 练 网 络 的 结果 突 触 权 值 用 64X 64 阵列 的 数 表 示 。 执 行 上 述 计算 
并 显示 突 触 权 值 作为 二 维 掩 模 的 16 个 阵列 。 评 价 你 的 结果 。 
8.11 在 仅 需 要 主子 空间 ( 即 主 特征 向 量 张 成 的 空间 〉 的 情况 下 ， 我 们 可 以 使 用 由 此 式 定 义 的 对 称 算法 : 
8, (a +1) = 8 + pix) — % w] 
l 
Rn) = >) Wy Cn) 


(a) 讨论 此 对 称 算 法 和 GHA 之 间 的 异同 点 。 
b 主子 空间 可 以 看 成 式 (8. 46) 定 义 的 Oja 规则 的 泛 化 。 解 释 此 泛 化 的 合理 性 。 
特征 提取 ; 习题 8. 12 和 习题 8.13 的 导言 
在 表示 一 个 由 许多 聚 类 组 成 的 数据 集 时 ， 我 们 可 以 说 ， 为 了 使 这 些 聚 类 可 见 ， 它 们 之 间 的 分 割 应 当 大 于 
每 个 聚 类 内 的 差异 。 如 果 以 上 条 件 成 立 ， 则 数据 集中 只 有 少量 数目 的 聚 类 ， 那 么 我 们 用 PCA 所 求 出 的 主 分 量 
来 投影 聚 类 的 话 就 会 得 到 好 的 分 离 效 果 。 这 样 对 于 特征 提取 问题 来 说 就 会 是 有 效 的 一 组 基底 。 
8.12 在 4.19 节 中 ,我 们 描述 了 结构 风险 最 小 化 ， 此 方法 通过 为 机 器 学 习 匹 配合 适 大 小 的 训练 样本 集 ， 来 系 
统 地 获得 最 佳 的 泛 化 性 能 。 
把 目标 作为 约 简 输入 数据 空间 维 数 的 主 分 量 分 析 看 成 机 器 学 习 的 预 处 理 过 程 ， 讨 论 这 个 预 处 理 过 程 如 
何 能 够 通过 对 一 组 模式 分 类 器 排序 ， 而 把 结构 信息 嵌 人 学 习 过 程 。 
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8. 13 ”作为 预 处 理 过 程 的 主 分 量 分 析 的 男 一 个 应 用 是 使 用 反 向 传播 算法 监督 式 地 训练 一 多 层 感 知 器 。 
此 应 用 的 目的 是 通过 对 输入 数据 相关 联 而 加 速 学 习 过 程 的 收 伍 。 试 讨论 此 目的 如 何 实现 。 
自 适应 主 分 量 提取 
8.14 广义 Hebb 学 习 算 法 (GHA) 依赖 于 对 主 分 量 分 析 使 用 反馈 连接 。 在 此 问题 中 ， 我 们 使 用 一 种 叫做 自 
适应 主 分 量 提取 算法 (Kung and Diamantaras, 1990; Diamantaras and Kung, 1996), 
APEX 算法 使 用 前 馈 和 反馈 连接 ， 如 图 P8. 14 所 示 。 输 入 向 量 x 是 m 维 ， 网 络 中 的 每 一 个 神经 元 都 是 
线性 的 。 
在 此 网 络 中 有 两 种 突 触 连接 
a) 从 输入 结 点 到 1,2,… ,i 每 个 神经 元 的 前 馈 连 接 ， 其 中 j 二 m。 
这 些 连 接 由 前 馈 权 值 向 量 表示 : 
Wi Cn) = [wn Cn) swa n) s Wn CG) JT 
其 中 代表 离散 的 时 间 。 
(2) 由 从 1,2,… ,ji 一 1 单个 神经 输出 到 神经 元 ; 的 侧 向 连接 ; 这 些 
连接 由 反馈 神经 权 值 表示 : : 
a; (n) = [an (n) sajz sa 0D] 
这 些 前 馈 突 触 连接 是 Hebb 的 ， 但 是 反馈 突 触 连接 是 反 Hebb 的 ， 
因此 是 抑制 的 。 神 经 元 7 的 输出 由 以 下 给 出 ， 
y(n) = wi Ga) x(n) + af Gdy,-1 GD 
由 以 上 分 析 ， 我 们 假定 网 络 中 所 有 神经 元 已 收敛 到 它们 各 自 的 稳定 








RAS, BW j 
wO = qe, k=1,2,,j—1 .输出 层 
a(0) = 0, k= 1,2,",„j— 1 图 P8.14 APEX 算法 中 的 前 馈 
其 中 q 是 相应 于 协 方差 矩阵 的 第 & 个 特征 值 的 特征 向 量 。 和 后 向 连接 网 络 


R = Elx) x" Cn) ] 在 时 间 阶 段 n 二 0 . 
(a) 基于 式 (8. 40)， 写 出 对 于 神经 元 7 的 关于 向 量 wj OA a (2) 的 更 新 公式 。 
O 假定 协 方差 矩阵 R 的 特征 值 按 降 序 排列 ， 其 中 心 是 最 大 的 。 记 为 关于 特征 值 4 的 特征 向 量 q。 要 
表达 前 馈 权 值 向 量 w (nn) 的 时 变 特性 ， 可 以 使 用 如 下 式 表 示 : 


win) = > On (71) Ge 
k=l 
其 中 0 (mn) 是 时 变 系数 。 因 此 ， 试 证 : 


《 i ) Doa (n+ 1)qe = S {1+ la — of (n) ]} Oe CW qs + 9 > Ara a (OM 
一 k=l 


其 中 7 是 学 习 参 数 ，ax (nm) 是 反馈 权 值 向 量 a 的 第 上 DDE, H of (n) =EL y} (n)j 是 神经 元 
的 平均 输出 。 
Ci) a(n FD =— Aba Dla + (1 — olde +0} Gay (2) 
其 中 14 是 其 所 有 分 量 都 为 0， 仅 第 & 个 分 量 为 1 的 向 量 。 
O 为 了 进一步 讨论 ， 需要 考虑 两 种 情况 : 
WRT: 1 委 4 和 7 一 1 
在 此 情况 下 ， 有 : 
On (n+ 1) 1+ gag — of (n)) Ar Ox (n) 
emt i [ — Wx ee 
此 2X2 的 矩阵 具有 二 重 特征 值 ， 
pa = [1— qi (a)? 
考虑 到 pi 二 1， TERA On Cn) Al ay (nn) 在 nn 不 断 增 大 时 渐 近 地 趋 于 0。 
情况 工 : jk 所 mm 
对 于 此 种 情况 ， 反 馈 权 值 cx (n) 对 于 网 络 的 模型 没有 影响 ; 因此 ， 
aj (n) = 0 对 于 jk 和 Mm 
Mit, WFR AS 的 主要 模型 ， 有 
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人 (n+1) = {1+ LAs — i (n) ]) 6% (n) 
因此 ”不断 增 大 时 gx (2 渐进 地 收敛 于 0。 
神经 元 7 的 平均 输出 表达 如 下 : 


a; (n) = D0% (n) 
kaj 


BAA: 
lim of (n) = Aj 
a n 
lim Wi(n) = gq 
核 PCA l 


8.15 4k, RRB K OS ij AE ey 中 心 化 后 所 对 应 的 部 分 。 证 明 以 下 等 式 (Schölkopf, 1997). 
Es = ky — NO D an) Px) — NÈ pax pa) 22 > "x.) Px) 
建议 用 紧凑 的 矩阵 形式 表示 这 个 关系 。 
8.16 ”证 明 核 矩阵 K 的 特征 向 量 a 的 归 一 化 与 式 (8. 109) 的 条 件 等 价 。 
计算 机 实验 
8.17 我 们 继续 8. 7 节 中 图 像 编码 的 实验 ， 有 两 个 特别 有 趣 的 问题 : 


(a) HHA GHA 的 学 习 曲 线 ， 其 中 算法 是 训练 Lena 图 像 〈 即 描绘 均 方 误差 随 着 训练 轮 数 的 变化 的 变化 


H). 
Cb) 同样 ， 描 绘 在 椒盐 图 像 中 算法 的 学 习 曲 线 。 
8.18 在 此 实验 中 ， 我 们 重新 提 到 核 PCA 中 的 例 3。 我 们 对 于 二 维 数据 用 以 下 公式 计算 核 PCA 分 量 : 


Tz = zf 十 v 


其 中 必 是 均值 为 0 方差 0. 04 的 附加 高 斯 噪声 。 然 而 ， 此 处 我 们 要 求 用 核 Hebb 算法 计算 。 比 较 此 处 和 


例 3 中 的 实验 结果 。 
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自 组 织 映射 


本 章 组 织 
这 一 章 学 习 运 用 自 组 织 原则 来 产生 “拓扑 映射 >。 关 于 这 一 主题 的 处 理 方 案 组 织 如 下 : 
9.1 节 是 引言 ， 用 寺 激 发 运用 自 组 织 映射 网 的 兴趣 。 
9.2 节 描 述 两 个 基本 特征 模型 ， 它 们 两 个 都 用 自己 的 方式 受到 神经 生物 学 考虑 的 激发 。 
9.3 节 和 9.4 节 处 理 高 度 流 行 和 广泛 使 用 的 自 组 织 〈 特 征 ) RA (SOM) 及 其 特性 。9.5 节 
介绍 计算 机 实验 ， 突 出 了 SOM 的 独 有 的 特征 。9.6 节 介绍 SOM 用 于 构造 上 下 文 映射 的 应 用 。 
9.7 节 讨 论 分 层 矢 量 量化 ， 利 用 自 组 织 映射 将 简化 其 执行 。 
9. 8 节 讲 述 基 于 核 的 自 组 织 映射 《kernel SOM)， 紧 接着 通过 9.9 节 的 计算 机 实验 来 例 示 
这 一 新 算法 的 改进 的 拓扑 映射 能 力 。9.10 和 节 讨论 核 SOM 和 Kullback-Leibler 发 散 之 间 的 关系 。 
9.11 节 通 过 小 结 和 讨论 本 章 的 主要 内 容 而 结束 本 章 。 





在 这 一 章 我 们 通过 考虑 一 种 称 为 自 组 织 映射 的 特殊 人 工 神 经 网 络 继续 学 习 自 组 织 系统 。 这 
类 网 络 基于 竞争 学 习 (competitive learning); 网 络 的 输出 神经 元 之 间 互 相 竞 争 以 求 被 激活 或 
点 火 ， 结 果 在 每 一 时 刻 只 有 一 个 输出 神经 元 ， 或 者 每 组 只 有 一 个 输出 神经 元 被 激活 。 赢 得 竞争 
的 一 个 输出 神经 元 被 称 作 胜 者 全 得 〈winner-takes-all) 神经 元 或 简称 获胜 神经 元 (winning 
neuron)1 。 在 输出 神经 元 中 导出 胜 者 全 得 的 竞争 方法 是 在 它们 之 间 使 用 侧 抑制 连接 〈 即 负 反 馈 
路 径 ); 这 个 思想 是 由 Rosenblatt (1958) 最 先 提出 的 。 

在 自 组 织 了 映射 里 ， 神 经 元 被 放置 在 网 格 节点 上 ， 这 个 网 格 通常 是 一 维 或 是 二 维 的 。 更 高 维 
映射 也 可 以 ,但 是 不 常见 。 在 竞争 学 习 过 程 中 ， 神 经 元 变化 依 不 同 输入 模式 (刺激) 或 者 输入 
模式 的 类 别 而 选择 性 地 调整 。 这 样 调整 后 神经 元 〈( 即 获胜 神经 元 ) 的 位 置 彼此 之 间 成 为 有 序 
的 ， 使 得 对 于 不 同 的 输入 特征 ， 在 网 格 上 建立 起 有 意义 的 坐标 系 。 因 此 自 组 织 映 射 由 输入 模式 
的 拓扑 映射 (topographic map) 结构 所 表征 ， 其 中 网 格 神经 元 的 空间 位 置 〈 即 坐标 ) 表示 输入 
模式 包含 的 内 在 统计 特征 ,“ 自 组 织 上 映 射 ” 因 此 得 和 名。 

作为 一 个 神经 模型 ， 自 组 织 上 映射 在 两 个 自 适应 层次 之 则 提供 桥梁 : 

。 在 单个 神经 元 的 微观 层次 形成 自 适应 规则 。 

。 在 神经 元 层次 的 微观 层 上 形成 特征 选择 的 在 实验 上 更 好 和 具体 可 实现 的 模式 。 

自 组 织 映 射 本 质 上 是 非 线性 的 。 

发 展 自 组 织 映射 作为 神经 模型 是 由 人 脑 的 一 个 突出 特征 所 激发 : 

人 脑 在 许多 地 方 以 这 样 一 种 方式 组 织 起 来 ， 使 得 不 同 的 感觉 输入 由 拓扑 有 序 的 计算 映射 
(topologically ordered computational map) 来 表示 。 

特别 地 ， 感 觉 输入 如 触觉 (Kaas Æ, 1983), W (Hubel and Wiesel, 1962, 1977) 和 
听觉 (Suga, 1985) 用 拓扑 有 序 的 方式 映射 到 人 脑 皮层 的 不 同 区 域 。 这 样 在 神经 系统 的 信息 处 
理 基 本 结构 中 ， 计 算 映 射 组 成 一 个 基本 构件 。 一 个 计算 映射 由 神经 元 阵列 定义 ,这些 神 经 元 表 
示 上 略微 不 同调 制 的 处 理 器 和 滤波 器 ， 它 们 并 行 处 理 携 带 信息 的 传 感 信号 。 所 以 ， 神 经 元 将 输入 
信号 转变 为 空间 位 置 编 码 的 概率 分 布 ， 分 布 通过 映射 中 最 大 相关 激活 的 位 置 表示 参数 的 计算 值 
(Knudsen 等 ，1987) 。 用 这 种 方式 导出 的 信息 属于 这 样 一 种 形式 ， 它 可 以 用 于 使 用 相对 简单 的 
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连接 模式 的 高 阶 处 理 器 。 
92 两 个 基本 的 特征 映射 模型 


任何 人 只 要 检查 人 脑 就 会 禁不住 对 人 脑 被 大 脑 皮 质 所 占据 的 范围 留 下 深刻 印象 。 人 脑 几 乎 
完全 被 大 脑 皮 质 所 包围 ， 它 遮 项 了 其 他 部 分 。 由 于 惊人 的 复杂 性 ， 大 脑 皮质 也 许 超 过 了 宇宙 中 
任何 已 知 的 结构 《Hubel and Wiesel，1977) 。 同 样 给 我 们 深刻 印象 的 是 将 不 同 的 感觉 输入 〈 运 
动 、 身 体 的 体 觉 、 视 觉 、 听 党 等 ) 以 一 种 有 序 的 方式 映射 到 相应 的 大 脑 皮 质 区 域 的 方法 ;为 了 
说 明 这 一 点 ， 参 看 导言 中 图 4 的 大 脑 皮 质 的 细胞 结构 图 。 计 算 映 射 的 使 用 提供 下 面 的 特性 
(Knudsen 等 ，1987; Durbin and Michison, 1990): 


L 在 每 次 映射 中 ， 神 经 元 并 行 地 处 理 自然 相似 的 信息 片断 ， 但 这 些 信息 片断 来 自 于 感知 
输入 空间 的 不 同 区 域 。 

2. 在 表示 的 每 一 阶段 ， 每 一 个 新 来 的 信息 片段 保持 在 它 合适 的 位 置 中 。 

3. 处 理 高 度 相 关 的 信息 片段 的 神经 元 被 紧密 地 联系 到 一 起 ， 通 过 短 的 突 触 连接 使 得 它们 
能 够 交互 。 

4, 上 下 文 映 射 能 通过 从 高 维 参 数 空 间 到 皮质 表面 的 决策 -衰减 映射 〈decisionrreducing 
mapping) 来 理解 。 


我 们 的 兴趣 在 于 建立 人 工 拓 扑 映射 ， 它 以 神经 生物 学 激励 的 方式 通过 自 组 织 来 学 习 。 在 这 
段 文 字 中 ， 从 人 脑 计算 映射 的 非常 简短 的 讨论 所 体现 的 重要 一 点 是 拓扑 映射 构成 原则 ， 它 可 以 
陈述 如 下 (Kohonen，1990): 


在 拓扑 映射 中 输出 神经 元 的 空间 位 置 对 应 于 特殊 的 定义 域 或 从 输入 空间 抽取 数据 的 特征 。 


这 个 原则 提供 了 这 里 描述 的 两 个 基本 不 同 的 特征 映射 模型 ? 的 神经 学 生物 基础 。 

图 9. 1 展现 两 个 模型 的 布局 。 在 这 两 种 情 
况 下 输出 神经 元 被 安排 在 二 维 的 网 格 中 。 这 种 获胜 神经 元 
拓扑 确保 每 个 神经 元 都 有 一 组 邻 域 。 模 型 间 的 
区 别 在 于 输入 模式 的 指定 方式 。 

图 9. 1a 的 模型 由 Willshaw and von der 
Malsburg (1976) 在 生物 学 基础 上 首先 提出 ， 
用 以 解释 (在 高 级 誉 椎 动物 中 ) 从 视网膜 到 视 
党 皮质 的 视觉 映射 的 问题 。 具 体 地 ， 有 两 个 不 激活 神经 元 
同 的 二 维 网 格 神经 元 连接 在 一 起 ， 一 个 投射 到 
另 一 个 。 一 个 网 格 代表 前 突 触 (输入 ) 神经 元 ， 
另 一 个 网 格 代表 后 突 触 〈 输 出 ) 神经 元 。 后 突 a) Willshaw-von der Malsburg 模 型 
触 网 格 使 用 短程 兴奋 机 制 (short-range excitato- 获胜 神经 元 
ry mechanism) 和 长 程 抑制 机 制 〈long-range in- 
hibitory mechanism) 。 这 两 种 机 制 本 质 上 都 是 后 突 触 神经 元 二 维 阵列 
局 部 的 且 对 自 组 织 特别 重要 。 这 两 个 网 格 由 
Hebb 型 的 可 调 突 触 相互 连接 。 因 此 严格 地 突 触 连 接 束 
说 ， 后 罕 触 神经 元 并 不 是 胜 者 全 得 ; 相反 使 用 
阔 值 确保 在 任 一 时 刻 仅 有 一 些 后 突 触 神经 元 点 输入 
火 。 更 进一步 ， 为 了 防止 可 能 导致 网 络 不 稳定 b> Kohonen 模型 
性 的 突 触 权 值 的 稳定 建立 ， 每 个 后 突 触 神经 元 图 9.1 两 个 自 组 织 特征 映射 










后 突 触 神经 元 二 维 阵列 





突 触 连接 束 源 于 其 他 
的 前 突 触 神经 元 有 类 似 
的 突 触 连接 束 ) 
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的 总 权 值 有 一 个 上 界 *。 因 此 对 每 个 神经 元 一 些 突 触 权 值 上 升 伴随 着 另外 的 神经 元 下 降 。 
Willshaw-von der Malsburg 模型 的 基本 思想 是 对 前 突 触 神经 元 的 几何 邻近 编码 为 它们 电位 活 
动 的 相关 形式 ， 并 且 在 后 突 触 网 格 中 利用 这 些 相关 使 得 相 邻 的 前 突 触 神经 元 连接 到 相 邻 的 后 突 
触 神经 元 。 从 而 由 自 组 织 产 生 拓 扑 有 序 的 映射 。 但 需 注 意 Willshaw-von der Malsburg 模型 限 
制 为 输入 和 输出 维 数 相同 的 映射 。 

图 9. 1b 的 第 二 个 模型 ， 由 Kohonen (1982) 引入 ， 并 不 在 说 明神 经 生物 学 的 细节 。 模 型 
抓 住人 脑 中 计算 映射 的 本 质 特征 而 且 保 留 计算 的 易 行 性 。Kohonen 模型 看 起 来 比 Wilshaw- 
von der Malsburg 模型 更 为 一 般 ， 前 者 能 进行 数据 压缩 〈 即 输入 维 数 的 缩减 ) 。 

现实 中 ，Kohonen 模型 属于 向 量 一 编码 (vector-coding) 算法 的 类 型 。 模 型 提供 一 个 拓扑 
映射 ， 它 最 优 地 设置 固定 数目 的 向 量 〈 即 编码 字 ) 到 高 维 输入 空间 ， 因 此 有 利于 数据 压缩 。 
Kohonen 模型 因此 可 由 两 种 方式 导出 。 首 先 ， 我 们 可 以 用 由 神经 生物 学 考虑 所 激发 的 自 组 织 的 
基本 思想 导出 模型 ， 这 是 传统 的 方法 (Kohonen，1982，1990，1997)。 另 外 ， 可 以 用 向 量 量 
化 的 方法 ， 使 用 包含 编码 器 和 解码 器 的 模型 ， 这 由 通信 理论 的 考虑 所 激发 (Luttrell, 1989b, 
1991a) 。 在 本 章 我 们 考虑 这 两 种 方法 。 

在 文献 中 Kohonen 模型 比 Willshaw-von der Malsburg 模型 受到 更 多 的 关注 。 它 拥有 在 本 
章 后 面 讨 论 的 一 些 性 质 ， 这 使 得 Kohonon 模型 可 能 用 于 捕捉 皮质 映射 的 本 质 特征 。 
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4 2a Rak A (self-organizing map, SOM) 的 主要 目的 是 将 任意 维 数 的 输入 信号 模式 转变 
为 一 维 或 二 维 的 离散 映射 并且 以 拓扑 有 序 的 方式 自 适 应 实现 这 个 变换 。 图 9. 2 给 出 常用 作 离 
散 映 射 的 二 维 神经 元 网 格 的 简要 图 表 。 网 格 中 每 个 神经 元 和 输入 层 的 源 节 点 全 连接 。 这 个 网 络 
表示 具有 神经 元 按 行 和 列 排列 的 单一 计算 层 的 前 馈 结 构 。 一 维 网 格 是 图 9. 2 描绘 的 构 形 的 一 个 
特例 ,在 这 种 特殊 情形 中 ， 计 算 层 仅 由 单一 的 列 或 行 神经 元 构成 。 


a 一 和 
输入 向 量 >_> men 一 一 -一 上 
oe - 
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图 9.2 神经 元 的 二 维 网 格 ， 以 三 维 输入 和 4X4 维 输出 为 例 说 明 


呈现 给 网 络 的 每 个 输 和 模式， 通常 包含 面 对 平 静 背 景 的 一 个 局 部 化 活动 区 域 或 “点 ”。 这 
个 点 的 位 置 和 性 质 通常 随 输 和 模式 的 实现 不 同 而 不 同 。 ie 径 元 应 经 历 输入 模式 
的 足够 次 数 的 不 同 实现 ， 确 保有 机 会 完成 恰当 的 自 组 织 

负责 形成 自 组 织 映 射 的 算法 ， 第 一 SSE PERSE SABE HIE. 这 个 工作 可 以 从 随机 数 
产生 器 中 挑选 较 小 的 值 赋 耶 它们 ; 这 样 做 ， 在 特征 映射 上 没有 加 载 任何 先 验 的 序 。 一 旦 网 络 被 
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恰当 初始 化 ， 在 自 组 织 映射 的 形成 中 有 三 个 主要 过 程 ， 小 结 如 下 ， 
1. 竞争 。 对 每 个 输入 模式 ， 网 络 中 的 神经 元 计算 它们 各 自 的 判别 函数 的 值 。 这 个 判别 函 
数 为 神经 元 之 间 的 竞争 提供 基础 。 具 有 判别 函数 最 大 值 的 特定 神经 元 成 为 竞争 的 胜利 者 。 
2. 合作 。 获 胜 神 经 元 决定 兴奋 神经 元 的 拓扑 邻 域 的 空间 位 置 ， 从 而 提供 这 样 的 相 邻 神 经 
元 合作 的 基础 。 
3. 突 触 调节 。 最 后 的 这 一 机 制 使 兴奋 神经 元 通过 对 它们 罕 触 权 值 的 适当 调节 以 增加 它们 
关于 该 输入 模式 的 判别 函数 值 。 所 做 的 调节 使 获胜 神经 元 对 以 后 相似 输入 模式 的 响应 增强 了 ，。 
竞争 和 合作 的 过 程 符合 第 8 章 描述 的 四 个 自 组 织 原则 中 的 两 个 。 对 于 自 增强 原则 ， 它 来 源 
于 自 适应 过 程 的 Hebb 学 习 的 修正 形式 。 如 第 8 章 的 解释 ， 输 入 数据 中 的 元 余 (虽然 在 描述 
SOM 算法 时 没有 明显 提 及 ) 对 学 习 是 必要 的 ， 因 为 它 提 供 了 输入 激活 模式 中 所 隐 含 的 结构 知 
识 。 下 面 给 出 竞争 、 合 作 和 突 触 调 节 过 程 的 详细 描述 。 
竞争 过 程 
令 m 表示 输入 (数据) 空间 的 维 数 。 从 输入 空间 中 随机 选择 输入 模式 〈 向 量 ) 记 为 
x= [zza rn | (9. 1) 
网 络 中 每 个 神经 元 的 突 触 权 值 向 量 和 输入 空间 的 维 数 相同 。 神 经 元 7 的 突 触 权 值 向 量 记 为 
Wj 一 [ew Wests Wim ls j= 1,2, 51 (9. 2) 
其 中 1 是 网 络 中 神经 元 的 总 数 。 为 了 找到 输入 向 量 x 与 突 触 权 值 向 量 w 的 最 佳 匹配 ， 对 
j= 二 1,2,…,l 比 较 内 积 wix 并 选择 最 大 者 。 这 里 假定 所 有 的 神经 元 有 相同 的 阐 值 ， 阔 值 偏 置 取 
负 。 这 样 ， 通 过 选择 具有 最 大 内 积 wx 的 神经 元 ， 我 们 实际 上 决定 了 兴奋 神经 元 的 拓扑 邻 域 中 
心 的 位 置 。 
从 导言 中 我 们 回想 基于 内 积 wx 最 大 化 的 最 优 匹配 准则 ， 在 数学 上 等 价 于 向 量 x 和 w 的 
殉 几 里 得 距离 的 最 小 化 。 如 果 用 索引 ix) 标识 最 优 匹配 输入 向 量 x 的 神经 元 ， 我 们 可 以 通过 下 
列 条 件 决定 CK)": 
itx) = arg min Ix- w |» jena (9. 3) 
这 概括 了 神经 元 中 竞争 过 程 的 本 质 。 这 里 % 定 义 了 神经 元 网 格 。 根 据 式 (9. 3), (OBER H 
标 ， 因 为 我 们 要 识别 神经 元 i。 满 足 这 个 条 件 的 特定 神经 元 i 被 称 为 输入 向 量 x 的 最 佳 匹配 或 
获胜 神经 元 。 式 (9. 3) 导 出 这 样 的 观察 : 
激活 模式 的 连续 输入 空间 通过 网 络 中 神经 元 之 间 的 竞争 过 程 映射 到 神经 元 的 离散 输出 空间 。 
根据 应 用 的 不 同 ， 网 络 的 响应 可 能 是 获胜 神经 元 的 标号 〈 即 它 在 网 格 中 的 位 置 ) 或 者 是 在 欧 几 
里 得 距离 意义 下 距 输 入 向 量 最 近 的 突 触 权 值 向 量 。 
合作 过 程 
获胜 神经 元 位 于 合作 神经 元 的 拓扑 邻 域 的 中 心 。 关 键 问题 是 :我们 怎样 定义 一 个 在 神经 生 
物 学 上 正确 的 拓扑 邻 域 ? 
要 回答 这 个 问题 ， 记 住 对 于 人 类 大 脑 中 一 组 兴奋 神经 元 的 侧 向 相互 作用 有 神经 生物 学 的 证 
据 。 特 别 地 ， 一 个 点 火 的 神经 元 倾向 于 激活 它 紧 接 的 邻 域 内 的 神经 元 而 不 是 和 它 隔 得 远 的 神经 
元 ， 这 在 直观 上 是 满足 的 。 这 个 观察 引导 我 们 对 获胜 神经 元 的 拓扑 邻 域 按 侧 向 距离 光滑 地 缩减 
(Lo 4, 1991, 1993; Ritter 等 ，1992)5 。 具 体 地 ， 设 万: 表 示 以 获胜 神经 元 : 为 中 心 的 拓扑 邻 
域 日 包含 一 组 兴奋 (合作) 神经 元 ， 其 中 一 个 神经 元 记 为 j。 设 dv 表示 在 获胜 神经 元 ; 和 兴奋 
神经 元 ;的 侧 向 距离 。 然 后 我 们 可 以 假定 拓扑 邻 域 ;是 侧 向 距离 dj. 的 单 峰 函 数 使 得 它 满足 两 
个 不 同 的 要 求 : 
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1. 拓扑 邻 域 及 ,关于 di 二 0 定义 的 最 大 点 是 对 称 的 ， 换 句 话说， 在 距离 心 ,为 零 的 获胜 神 
经 元 i 处 达到 最 大 值 。 

2. 拓扑 邻 域 访 ;的 幅度 值 随 侧 向 距离 d;,; 的 增加 而 单调 递减 ， 当 4,; 一 oo 时 趋 于 零 ， 对 收敛 
来 说 这 是 一 个 必要 条 件 。 

满足 这 些 要 求 的 一 个 已 :的 好 的 选择 为 高 斯 函数 : 





hj,iw = exp(— 4) 9 JEA (9.4) 
它 是 平移 不 变 的 《 即 不 依赖 于 获胜 神经 元 i 的 位 置 )。 参 数 o 是 拓扑 邻 域 的 “有 效 宽度 ”， 如 图 
9. 3 所 示 ; 它 度量 靠近 获胜 神经 元 的 兴奋 神经 元 
在 学 习 过 程 中 参与 的 程度 。 就 量化 来 说 ， 式 1.0 


(9. 4) 所 示 的 高 斯 拓扑 邻 域 比 和 矩形 形式 的 拓扑 邻 
域 在 生物 上 更 合适 。 它 的 使 用 使 SOM 算法 的 收 
SURE LIE th BBR (Lo 等 ,1991,1993; 
Erwin 等 ,1992a) 。 

对 于 邻 域 函数 神经 元 之 间 的 合作 ， 必 然 要 求 
拓扑 邻 域 函数 hj, 依赖 获 胜 神经 元 i 和 兴奋 神经 元 
7 在 输出 空间 的 侧 向 距离 d;,; 而 不 是 依赖 于 原始 输 
入 空间 的 某 种 距离 度量 。 这 正 是 在 式 (9.4) 中 我 











A 


们 所 表达 的 意义 。 就 一 维 网 格 来 说 ， 必 ,是 整数 且 0 
等 于 17 一 中 。 另 一 方面 ， 在 二 维 网 格 的 情况 下 它 图 9.3 高 斯 邻 域 函数 
定义 为 : 

di, = lyr ll? (9. 5) 
其 中 离散 向 量 r 定义 兴奋 神经 元 ; 的 位 置 ， 而 r; 定义 获胜 神经 元 i 的 离散 位 置 ， 两 者 都 是 在 离 
散 输 出 空间 中 度量 的 。 


SOM 算法 的 另 一 个 独 有 特征 是 拓扑 邻 域 的 大 小 随时 间 收 缩 。 这 要 求 通过 使 拓扑 邻 域 函 数 
h; HIERE o 随时 间 而 下 降 来 满足 。 对 于 o 依赖 于 离散 时 间 的 流行 选择 是 由 


a(n) = 6o exp(— 4) n=0,1,2.°, (9. 6) 
Tl 


描述 的 指数 衰减 ， 其 中 op 是 SOM 算法 中 6o WI, n 是 由 设计 者 选择 的 时 间 常 数 (Ritter 
等 ，1992; Obermayer 等 ，1991)。 因 此 ， 拓 扑 邻 域 假定 具有 时 变形 式 ， 表 示 如 下 : 


hi) 
2o (n)? 
其 中 o(n) HO. 6) 定 义 。 于 是 随 着 n〈 即 迭代 次 数 ) 的 增加 ， 宽 度 ow 以 指数 下 降 ， 拓 扑 邻 
域 以 相应 的 方式 缩减 。 然 而 ， 需 要 重点 指出 的 是 ， 邻 域 函 数 对 于 获胜 神经 元 i 最 终 仍 然 具 有 单 
位 值 ， 因 为 对 于 神经 元 j 的 距离 dj. 是 在 网 格 空间 中 计算 并 和 获胜 神经 元 ; 相 比较 的 。 

存在 着 另 一 种 关于 邻 域 函数 hj,iw (2 在 获胜 神经 元 i(x) 周 围 随时 间 x 变动 的 有 用 观点 。 宽 
BE hw Cn) 的 目标 是 使 网 格 中 大 量 兴奋 神经 元 的 权 值 更 新 方向 相关 。 随 着 hyn (nn) 宽度 减少 ， 
更 新 方向 相关 的 神经 元 数量 也 在 减少 。 当 自 组 织 映 射 的 训练 在 计算 机 图 形 屏幕 显示 时 ， 这 个 现 
象 尤其 明显 。 以 相关 形式 在 获胜 神经 元 周围 移动 大 量 自由 度 是 相当 耗费 计算 机 资源 的 ， 就 像 标 
准 SOM 算法 一 样 。 相 反 ， 使 用 重 正规 化 (renormalized) SOM 的 训练 形式 会 更 好 ， 根 据 这 一 
情况 ， 我 们 选用 更 小 数量 的 正规 化 自由 度 。 通 过 使 用 恒定 宽度 的 邻 域 函 数 hjc (n)， 但 逐渐 增 
加 领域 函数 中 神经 元 的 数量 ， 这 个 操作 很 容易 以 离散 形式 完成 。 新 的 神经 元 被 插 到 已 有 的 神经 


hj.iow (n) 一 exp(— n = 0,1,2, 9 (9. 7) 
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元 之 间 ， 而 SOM 算法 的 平滑 性 保证 新 的 神经 元 以 很 好 的 方式 参与 突 触 自 适 应 《Luttrell， 
1989a) 。 重 正规 化 SOM 算法 的 概述 在 习题 9. 15 给 出 。 
自 适应 过 程 
现在 我 们 来 讨论 特征 映射 自 组 织 形成 过 程 的 最 后 一 个 过 程 ， 即 突 触 自 适应 过 程 。 为 了 使 网 
络 成 为 自 组 织 的 ， 要 求 神 经 元 7 的 突 触 权 值 向 量 w 随 输 入 向 量 x 改变。 问题 是 如 何 进行 改变 。 
在 Hebb 学 习 假 设 中 ， 突 触 权 值 随 着 前 突 触 和 后 突 触 的 激活 同时 发 生 而 增加 。 此 方法 非常 适合 
联想 学 习 (例如 ， 主 分 量 分 析 )。 然 而 对 于 这 里 考虑 的 无 监督 学 习 ，Hebb 假设 的 基本 形式 是 
不 能 令 人 满意 的 ， 原 因 如 下 : 连接 的 改变 仅 发 生 在 一 个 方向 上 ， 这 样 最 终 使 所 有 的 突 触 权 值 都 
趋 于 饱和 。 为 了 克服 这 个 问题 ， 我 们 通过 包括 一 个 遗忘 项 gCy;)w 来 改变 Hebb 假定 ， 其 中 w 
是 神经 元 j 的 突 触 权 值 向 量 ，g(y;) 是 响应 y 的 正 的 标量 函数 。 对 g(y;) 的 唯一 强制 要 求 是 它 
的 Taylor 级 数 展开 的 常数 项 为 零 ， 这 样 我 们 可 写成 ; 
gly; 一 0 4 y; =0 (9. 8) 
这 个 要 求 的 意义 很 快 就 会 变 得 明显 。 给 定 这 样 一 个 函数 ， 我 们 可 以 把 网 格 中 神经 元 7 的 权 值 向 
量 改 变 表示 成 
Aw; = iX gCYi)W; (9. 9) 
其 中 是 算法 的 学 习 率 参数 。 式 (9. 9) 右 端 第 一 项 是 Hebb 项 ， 第 二 项 是 遗忘 项 。 为 了 满足 式 
(9.8), Xt g(y;) 选 择 线性 函数 如 下 : 


EOD = Wi (9. 10) 
对 于 获胜 神经 元 i(x)， 我 们 可 以 进一步 简化 式 (9. 9)， 设 : 
Y = hii (9.11) 
HRO 10) 和 式 (9. 11) 代 人 式 (9. 9) 得 到 : 
F 神经 元 
Aw; = MA js (X— Wi)» RER ZT (9. 12) 


i: XB ME) 神经 元 

最 后 使 用 离散 时 间 形 式 ， 假 定 在 时 间 n 神经 元 j 的 权 值 向 量 为 w (mn)， 更 新 权 值 向 量 w Gr TD 

在 时 间 2 十 1 被 定义 为 : 
wnt 1) = wn) + hw M (Xn) — win)) (9. 13) 

它 被 应 用 到 网 格 中 获胜 神经 元 i 的 拓扑 邻 域 中 的 所 有 神经 元 ‘Kohonen，1982; Ritter 等 ， 
1992; Kohonen，1997a)。 式 (9. 13) 具 有 将 获胜 神经 元 i 的 突 触 权 值 向 量 w 向 输入 向 量 x 移动 
的 作用 。 随 着 训练 数据 的 重复 出 现 ， 由 于 邻 域 更 新 使 得 突 触 权 值 向 量 趋 于 服从 输入 向 量 的 分 
布 。 因 此 算法 导致 在 输入 空间 中 特征 映射 的 拓扑 排序 ， 这 意味 着 网 格 中 相 邻 神经 元 会 有 相似 的 
突 触 权 值 向 量 。 关 于 这 一 点 在 9. 4 节 中 ， 我 们 将 进一步 详 述 。 

式 (9. 13) 为 计算 特征 映射 突 触 权 值 所 期 望 的 公式 。 除 了 这 个 公式 之 外 ， 我 们 还 需要 用 于 选 
择 邻 域 函 数 万 ,oo Cr) A 发 式 规 则 式 (9. 7) 。 

学 习 率 参数 XX) 应 如 式 (9. 13) 所 示 的 时 变形 式 ， 这 也 是 它 用 于 随机 逼近 的 要 求 。 特 别 地 ， 
它 应 从 初始 值 六 开始 ， 然 后 随时 间 n 增加 而 逐渐 下 降 。 这 个 要 求 可 以 通过 下 面 的 启发 式 而 
满足 : 


Wn) = p exp(—), 2 一 0,1,2,……， (9. 14) 
Foch, cp 是 SOM 算法 的 另 一 个 时 间 常 数 。 即 使 在 式 (9. 6) 和 式 (9. 14)? 中 描述 的 邻 域 函数 宽度 
和 学 习 率 参数 分 别 以 指数 衰减 的 公式 可 能 不 是 最 优 的 ， 但 它们 对 于 以 自 组 织 方式 构成 特征 映射 
是 足够 的 。 
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自首 应 过 程 的 两 个 阶段 : 排序 和 收敛 

假定 算法 的 参数 是 正确 选择 的 ， 从 完全 无 序 的 初始 状态 开始 ，SOM 算法 令 人 惊奇 地 逐步 
导致 一 个 从 输入 空间 抽取 的 激活 模式 有 组 织 地 表示 。 我 们 可 以 把 根据 式 (9. 13) 计 算 的 网 络 权 值 
的 自 适 应 分 解 为 两 个 阶段 : 排序 或 自 组 织 阶段 及 其 后 的 收敛 阶段 。 自 适应 过 程 的 这 两 个 阶段 描 
述 如 下 (Kohonen, 1982, 1997a); 

L 自 组 织 或 排序 阶段 。 在 自 适应 过 程 的 第 一 阶段 形成 权 值 向 量 的 拓扑 排序 。 这 个 排序 阶 
段 可 能 需要 SOM 算法 的 1000 次 迭代 ， 也 许 会 更 多 。 要 仔细 考虑 学 习 率 参数 和 邻 域 函数 的 
选择 。 

。 学 习 率 参数 y(n) 初 始 值 应 接近 0. 1; 然后 逐渐 减少 ， 但 应 保持 在 0.01 AE BEKR 

被 允许 为 0)。 这 些 要 求 的 值 可 以 在 公式 (9. 14) 中 选择 


加 = 0. 1 
rz = 1000 
而 得 到 满足 。 
。 邻 域 函数 及,,(n) 的 初始 化 应 包括 以 获胜 神经 元 i 为 中 心 的 几乎 所 有 神经 元 ， 然 后 随时 
间 慢 慢 收 缩 。 


具体 来 说 ， 排 序 阶段 可 能 需要 1000 次 迭代 或 更 多 ， 人 允许 hji Cn) 减少 到 仅 有 围绕 获胜 神经 元 
的 少量 邻居 神经 元 的 小 的 值 或 者 减少 到 获胜 神经 元 自身 。 假 定 对 离散 映射 使 用 神经 元 二 维 网 格 ， 
则 我 们 可 以 设 定 邻 域 函数 的 初始 值 mw 等 于 网 格 的 半径 。 相 应 地 我 们 设 定式 (9. 6) 的 时 间 常 数 : 
1000 
~~ logoo 


2. 收 化 阶段 。 自 适应 过 程 的 第 二 阶段 需要 微调 特征 映射 从 而 提供 输入 空间 的 准确 统计 量 。 
而 且 ， 达 到 收敛 所 需要 的 和 迭代 次 数 强烈 依赖 于 输入 空间 的 维 数 。 作 为 一 般 性 规则 ， 组 成 收敛 阶 
段 的 近代 次 数 至 少 是 网 络 中 神经 元 数 昌 的 500 倍 。 这 样 收敛 阶段 可 能 进行 几 和 次 以 至 上 万 次 的 
和 迭代。 学习 率 参数 的 选择 和 邻 域 画 数 可 以 如 下 实现 。 

对 于 好 的 统计 精度 ， 在 收敛 阶段 学 习 参 数 y(n) 应 该 保持 在 较 小 的 值 上 ， 为 0.01 数量 ， 
级 。 无 论 如 何 ， 不 允许 它 下 降 到 零 ; 否则 ， 网 络 会 陷入 到 亚 稳 定 状态 。 亚 稳定 状态 
(metastable state) 属于 有 拓扑 缺陷 的 特征 映射 结构 。 式 (9. 14) 的 指数 衰减 保证 不 可 能 

。 邻 域 函 数 hio 应 该 仅 包括 获胜 神经 元 的 最 近邻 域 ， 最 终 减 到 一 个 或 零 个 邻 域 神经 元 。 
作为 男 一 个 评论 : 在 讨论 排序 和 收敛 问题 时 ， 我 们 强调 了 完成 这 一 过 程 需 要 的 迭代 次 数 。 然 
而 ， 在 一 些 软 件 包 中 ， 回 合 〔( 而 不 是 迭代 ) 被 用 于 描述 这 两 个 问题 。 


SOM 算法 小 结 

Kohonen 的 SOM 算法 的 本 质 是 用 一 个 简单 的 几何 计算 代替 类 Hebb 规则 的 复杂 性 质 和 侧 
向 相互 作用 。 算 法 的 主要 构成 /参数 有 ， 

。 根据 一 定 概 率 分 布 产生 激活 模式 的 连续 输入 空间 。 

。 以 神经 元 的 网 格 形式 表示 的 网 络 拓扑 ， 它 定义 一 个 离散 输出 空间 。 

。 在 获胜 神经 元 尺 z) 周 围 定义 随 时 间 变 化 的 邻 域 函数 hi (0) a 

。 学 习 率 参数 y(n) 的 初始 值 是 wn， 然后 随 着 时 间 = BM, (KAAS. 

对 于 邻 域 函数 和 学 习 率 参数 ， 在 排序 阶段 〈 即 开始 的 大 约 1000 次 和 迭代) 我 们 分 别 使 用 
式 (9. 7) 和 式 (9. 14)。 为 了 好 的 统计 精度 ， 在 收敛 阶段 7(z) 的 相当 长 的 时 间 内 应 该 保持 一 个 较 
小 值 (0.01 或 更 小 )， 一 般 为 几 千 次 先 代 。 对 于 邻 域 函 数 ， 在 收敛 阶段 之 初 ， 它 应 仅 包含 获胜 





Tl 
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神经 元 的 最 近 的 邻 域 ， 并 且 最 终 缩减 到 一 个 或 零 个 邻 域 神 经 元 。 
在 初始 化 后 算法 的 应 用 中 涉及 三 个 基本 步骤 : 取样 、 相 似 性 匹配 和 更 新 。 重 复 这 三 个 步骤 
直到 完成 特征 映射 的 形成 。 算 法 总 结 如 下 : 
1. 初始 化 。 对 初始 权 值 向 量 w(0) 选 择 随 机 值 。 这 里 唯一 的 限制 是 7 一 1,2,…,L w0) 
互 不 相同 ， 其 中 /! 是 网 格 中 神经 元 的 数目 。 可 能 希望 保持 较 小 的 权 值 。 
另 一 种 算法 初始 化 方法 是 从 输入 向 量 {x;} 企 1 的 可 用 集 里 随机 选择 权 值 向 量 {w; (0)};-1。 这 
一 不 同 选择 的 优势 在 于 初始 映射 将 在 最 终 映射 的 范围 内 。 
2. 取样 。 以 一 定 概 率 从 输入 空间 取样 本 x; 向 量 x 表示 应 用 于 网 格 的 激活 模式 。 向 量 x 的 
维 数 等 于 m. 
3. 相似 性 匹配 。 在 时 间 步 n 使 用 最 小 距离 准则 寻找 最 匹配 (获胜) 的 神经 元 i(x): 
i(x) = arg min || x —w, |, j =1,2,,l 
4. 更 新 。 通 过 用 更 新 公式 调整 所 有 神经 元 的 权 值 向 量 : 
wat 1) = wip) + ym hy, on GD CG) — win)) 
其 中 mn) 是 学 习 率 参数 ，h.ios(n) 是 获胜 神经 元 OAR MBM BR, ATR HBR, 
n(n) A ha (nn) 在 学 习 过 程 中 是 动态 变化 的 。 
5. 继续 。 继 续 步 骤 2 直到 在 特征 映射 里 观察 不 到 明显 的 变化 为 止 。 


9.4 特征 映射 的 性 质 


一 且 SOM 算法 收 僵 ， 由 算法 计算 的 特征 映射 显示 输入 空间 的 重要 统计 特性 。 : 
开始 令 8 表示 空间 的 连续 输入 (数据) 空间 ， 它 的 拓扑 由 向 量 x€E 包 的 度量 关系 定义 。 令 欠 
表示 空间 的 离散 输出 空间 ， 其 拓扑 由 安排 一 组 神经 元 作为 网 格 的 计算 节点 来 赋予 。 令 更 表示 称 
为 特征 上 映射 的 非 线 性 变换 ， 它 映射 输入 空间 % 到 输出 〈 即 网 格 ) 空间 及， 表示 为 
P: —>— A (9. 15) 
式 (9. 15) 可 看 成 式 (9. 3) 的 抽象 ， 式 (9. 3) 定 义 为 响应 输入 向 量 x 而 产生 的 获胜 神经 元 ;5Cx) 的 位 
置 。 例 如 ， 在 神经 生物 学 中 输入 空间 史 可 以 表示 密布 于 整个 体 表面 的 体感 觉 接 收 器 的 坐标 集 。 
相应 地 ， 输 出 空间 wx 表示 体感 觉 接收 器 投影 到 的 人 脑 皮 层 中 的 神经 元 集 。 
给 定 输入 向 量 r SOM 算法 首先 根据 特征 映射 
BB 确定 在 输出 空间 中 的 最 佳 匹配 或 获胜 神经 元 
i(x) 。 神 经 元 i(x) 的 突 触 权 值 向 量 w 可 以 视 为 神经 
元 指向 输入 空间 8 的 指针 。 
因此 ， 如 图 9. 4 所 示 ，SOM 算法 包含 了 两 个 定 
义 了 该 算法 的 成 分 : 
。 从 连续 输入 空间 到 离散 输出 神经 元 空间 
的 投影 。 根 据 9. 3 节 中 算法 小 结 的 相似 性 匹 
Ace CANS = AE), 输入 向 量 被 映射 到 网 格 
结构 的 “获胜 神经 元 ”。 
。 从 输出 空间 回 到 输入 空间 的 指针 。 实 际 连续 输入 
上 ， 由 获胜 神经 元 的 权重 向 量 所 定义 的 指 
针 表 示 输 入 数据 空间 中 的 一 个 特别 点 ， 这 
个 点 可 作为 获胜 神经 元 的 映像 ; 这 一 操作 
是 根据 算法 小 结 中 的 更 新 步 〈 即 第 4 步 ) 图 9.4 特征 映射 和 获胜 神经 元 i 权 值 
迭代 完成 的 。 向 量 w 的 关系 图 


离散 输出 
空间 由 
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换 名 话说， 在 存在 着 网 格 神经 元 的 输出 空间 和 产生 样 例 的 输入 空间 之 间 有 着 反 向 或 前 向 的 
通信 。 

SOM 算法 有 下 面 将 要 讨论 的 一 些 重 要 性 质 。 
性 质 1 输入 空间 的 近似 

由 输出 空间 WH 的 突 触 权 值 向 量 {w}) 的 集合 表示 的 特征 映射 四 对 输入 空间 多 提供 一 个 好 的 近似 。 

SOM 算法 的 基本 目标 是 通过 寻找 原型 w; C 
的 一 个 较 小 的 集合 存储 输入 向 量 <E8& 的 一 个 大 集 
合 ， 从 而 对 原始 输入 空间 提供 一 个 好 的 近似 。 刚 
才 描 述 的 思想 的 理论 基础 植 根 于 向 量 量 化 理论 
《vector quantization theory)， 它 的 动机 是 维 数 的 
削减 或 者 是 数据 的 压缩 (Gersho and Gray, 
1992) 。 因 此 给 出 这 个 理论 的 简要 讨论 是 适宜 的 。 

考虑 图 9.5， 甚 中 c(x) 作 为 输入 向 量 x 的 编码 





; 图 9.5 描述 SOM 模型 性 质 1 的 
器 而 x 《c) 作 为 CX) 的 解码 器 。 向 量 x 从 满足 加 有 概 编码 器 一 解码 器 模型 


率 密度 函数 加 Co) 的 训练 样本 〈 即 输入 空间 &%) 中 随 
机 选择 。 通 过 变化 函数 cCx) 和 x’ (ec) 决定 最 优 编码 一 解码 方案 使 得 极 小 化 由 


D= 到 | px (d(x x ) dx (9. 16) 


定义 的 期 望 失真 ， 其 中 引入 因子 亏 是 为 了 表达 方便 ，d(x,x') ÆRA (distortion) 度量 。 积 分 


在 假定 维 数 为 m 的 整个 输入 空间 吕 上 进行 ， 因 此 在 式 (9. 16) 中 使 用 了 微分 变量 dx, RARE 
d(x,x ) 的 一 个 常用 选择 是 输入 向 量 x 和 重建 向 量 x 之 间 的 欧 几 里 得 距离 的 平方 ， 即 





d(x,x’) = x—x ||? = (x—x) (x— x) (9.17) 

这 样 我 们 可 把 式 (9. 16) 重 写 为 : 
D= LP ax lx—x rdx (9. 18) 
期 望 失真 D 最 小 化 的 必要 条 件 包含 在 广义 Lloyd 算法 中 7 (Gersho and Gray，1992)。 条 件 是 


两 方面 的 : 

条 件 1 给 定 输入 向 量 x， 选 择 编码 c 二 c(x) 使 其 最 小 化 平方 误差 失真 上 x 一 x (©) ||’. 

条 件 2 给 定编 码 c， 计 算 重 构 向 量 x =x (ec) 作 为 满足 条 件 1 的 输入 向 量 X 的 中 心 。 

条 件 1 称 为 最 近邻 编码 规则 。 条 件 1 和 2 意味 着 平均 失真 D 关于 编码 器 cCx) AB Ae 
x'(c) 各 自 的 变化 是 稳定 的 〈 即 在 局 部 极 小 )。 为 了 
实现 向 量 量化 ， 广 义 Lloyd 算法 以 批量 训练 方式 
进行 。 基 本 上 ， 算 法 是 交替 按照 条 件 1 优化 编码 
器 cCx) 和 按照 条 件 2 优化 解码 器 x (ec) ， 直 到 期 户 
失真 达到 一 个 最 小 。 要 克服 局 部 最 小 化 问题 ， 
可 能 需要 以 不 同 初 值 运行 广义 Lloyd 算法 若干 次 。 

广义 Lloyd 算法 和 SOM 算法 紧密 相关 ， 如 
Luttrell (1989b) 所 示 。 可 以 通过 考虑 图 9. 6 Bras 
的 系统 描述 这 种 关系 的 形式 ， 其 中 在 编码 器 c(x) 
之 后 我 们 引 人 了 独立 于 数据 的 噪声 过 程 。 噪 声 v 
附加 在 编码 器 和 解码 器 之 间 的 虚构 的 “通信 信道 ” 图 9.6 噪声 编码 器 一 解码 器 模型 
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E. EAS EE a Sex) OT EAR A AT EE. ÆR 9. 6 所 示 模 型 的 基础 上 ， 可 以 考虑 
期 望 失真 的 一 种 修正 形式 


D, = 到 co 二 x(v) || x 一 XeCx) +v) || ?dvdx (9. 19) 


其 中 r(y) 为 加 性 噪声 v 的 概率 密度 函数 (pdf) ， 内 部 积分 是 对 这 个 噪声 的 所 有 可 能 实现 之 上 的 
积分 ， 因 而 在 式 (9. 19) 中 使 用 了 增加 变量 dv. 
根据 广义 Lioyd 算法 描述 的 策略 ， 对 图 9.6 所 示 的 模型 可 考虑 两 个 不 同 的 优化 ， 一 个 属于 
编码 器 而 另 一 个 属于 解码 器 。 为 了 找到 给 定 x 的 最 优 编码 器 ， 我 们 需要 期 望 失真 度量 D, 对 编 
码 向 量 e 的 偏 导数 。 利 用 式 (9. 19)， 可 得 
aD, = laofa 2 | x— x Co |]? sosdv (9. 20) 
为 了 找到 给 定 e 的 最 优 解码 器 ， 我 们 需要 期 望 失真 度量 D 对 解码 向 量 x (ce) 的 偏 导 数 。 利 用 式 
(9.19), WE 
aD, 
ox’ (e) 
因此 ， 根 据 式 (9. 20) MISKC9. 21) ， 以 前 陈述 的 广义 Lloyd 算法 的 条 件 1 和 条 件 2 必须 修改 如 下 
(Luttrell, 1989b); 
ZEI 给 定 输入 向 量 x， 选 择 编 码 c 一 c(CxX) 使 其 最 小 化 失真 度量 


D, = F nCv) || x— x (ex) + v) || 7 dv (9. 22) 
条 件 下 ”给 定编 码 c， 计 算 重 构 向 量 x'(c) 使 其 满足 条 件 
F px Cx) n(c — e(x))xdx 


一 一 | px Xnle— e(x)) (x — x (e) dx (9. 21) 


€9. 23) 





x(c) = 





| px (x) xCe — e(x))dx 


令 式 (9. 21) 中 的 偏 导数 3D1/3x'(e) 为 0， 然 后 解 出 x Co) 可 得 式 (9. 23). 
图 9. 5 描述 的 模型 可 作为 图 9.6 描述 的 模型 的 特殊 情形 。 特 别 地 ， 如 果 令 噪声 v 的 概率 密 
度 函数 xCv) 等 于 Dirac delta 函数 SC(v) ， 条 件 工 和 条 件 开 分 别 退 化 为 广义 Lloyd 算法 的 条 件 1 
和 条 件 2。 
为 了 简化 条 件 工 ， 假 定 rA v 的 光滑 函数 。 可 以 证 明 式 (9. 22) 定 义 的 失真 度量 D: 的 二 
阶 近似 包含 两 项 (Luttrell, 1989b): 
。 常规 失真 项 ， 由 平方 误差 失真 | x 一 x (e) ||? 定义 。 
。 由 噪声 模型 x(v) 引 起 的 曲率 Curvature) WM. 
假设 曲率 项 小 ， 对 于 图 9. 6 的 模型 条 件 工 可 以 近似 为 图 9. 5 的 无 噪声 模型 的 条 件 工 。 这 样 
又 使 条 件 工 变 成 以 前 的 最 近邻 编码 规则 。 
至 于 条 件 卫 ， 可 以 使 用 随机 下 降 学 习 来 实现 。 具 体 地 ， 根 据 px (x) 从 输入 空间 % 随 机 选择 
输入 向 量 x， 并 且 更 新 重 构 向 量 x (OME: 
xi CC) < Xba Ce) + pre — ex) Lx — Xaa Ce)] (9. 24) 
其 中 7 为 学 习 率 参数 ，eGx) 为 条 件 工 的 最 近邻 编码 近似 。 更 新 式 (9. 24) 由 检查 式 (9. 21) 的 偏 导 
数 可 得 。 这 个 更 新 应 用 于 所 有 的 c， 对 此 我 们 有 
r(c 一 c(x)) > 0 (9. 25) 
可 以 认为 式 (9. 24) 描 述 的 梯度 下 降 过 程 为 式 (9. 19) 的 失真 度量 Di 的 一 种 最 小 化 方法 。 也 就 是 
说 ， 式 (9. DARO. 24) 本 质 上 是 同类 型 的 ， 区 别 在 于 式 (9. 23) 为 批量 方式 的 而 式 (9, 24) 为 连 
续 的 方式 〈 即 经 过 流 的 方式 ) 。 
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更 新 式 (9. 24) 等 同 于 式 (9. 13) 的 (连续 ) SOMBE, PEER 9. 1 中 所 列 的 对 应 关系 。 因 
此 ， 可 以 说 用 于 向 量 量化 的 广义 Lloyd 算法 为 ” 表 9 1 在 SOM 算法 和 图 9.6 的 模型 之 间 的 对 应 关系 





具有 有 零 邻 域 大 小 的 SOM 算法 的 批量 训练 模 “图 9 6 的 编码 器 -解码 器 模型 SOM 算法 
I; 对 零 邻 域 ， n(O)=1, 注意 ， 为 了 从 SOM 编码 器 eCx) 最 佳 匹 配 神 经 元 ix) 
算法 的 批量 方式 得 到 广义 Lloyd 算法 我 们 无 需 重 爸 向 量 x’ Co) 突 触 权 值 向 量 w 


作 任 何 近似 ， 因 为 当 邻 域 为 0 宽度 时 曲率 项 概率 密度 函数 eea) 邻 域 函数 hio 
(和 所 有 高 阶 项 ) 不 起 任何 作用 。 

下 面 给 出 这 里 的 讨论 所 需 注 意 的 重要 之 处 : 

1. SOM 算法 为 向 量 量化 算法 ， 它 提供 输入 空间 多 的 良好 近似 。 这 个 观点 提供 了 导出 SOM 
算法 的 另 一 种 途径 ， 如 式 (9. 24) 的 示例 。 

2. 根据 这 个 观点 ，SOM 算法 中 的 邻 域 函 数 hi 有 一 个 概率 密度 函数 的 形式 。 在 Luttrell 
(1991a)， 考 虚 对 图 9.6 的 模型 中 噪声 v 而 言 合 适 的 零 均值 高 斯 模型 。 因 此 我 们 对 采用 式 (9.4) 
的 高 斯 邻 域 函数 又 有 了 一 个 理论 依据 。 

用 求 和 作为 对 式 (9. 23) 右 端的 分 子 和 分 母 的 积分 的 近似 ， 批 量 SOME ARERO. 23) 的 重 
写 。 注 意 在 SOM 算法 的 这 种 形式 中 ， 输 入 模式 呈现 给 网 络 的 顺序 对 特征 映射 的 最 终 形式 没有 
影响 ， 且 无 需 学 习 率 调度 。 但 算法 仍 需 利用 邻 域 郴 数 。 

性 质 2 拓扑 排序 

通过 SOM 算法 计算 的 特征 映射 四 是 拓扑 有 序 的 ， 意 味 着 网 格 中 神经 元 的 空间 位 置 对 应 于 
输入 模式 的 特定 区 域 或 特征 。 

拓扑 排序 的 特性 * 是 更 新 公式 (9. 13) 的 直接 结果 ， 它 使 获胜 神经 元 沁 x) 的 权 值 问 量 w BA 
输入 向 量 x。 它 同样 对 于 获胜 神经 元 i(x) 近 邻 的 神经 元 j 的 突 触 权 值 向 量 w 的 移动 有 作用 。 因 
此 我 们 可 以 将 特征 映射 @ 看 成 一 个 弹性 网 或 虚拟 网 ， 它 有 在 输出 空间 x 中 描述 的 一 维 或 二 维 的 
网 格 ， 并 且 它 的 节点 具有 权 值 作为 输入 空间 多 中 的 坐标 “Ritter，1995)。 因 此 算法 的 总 的 目标 
可 以 陈述 如 下 : 

BARRA ERAGE w 的 形式 逼近 输入 空间 咒 ， 使 得 特征 映射 皇 以 这 样 一 种 方式 
提供 根据 某 个 统计 准则 而 言 表征 输入 向 量 XE 吕 的 重要 特征 的 可 信赖 表示 。 

特征 映射 到 通常 在 输入 空间 % 中 显示 。 具 体 地 ， 所 有 的 指针 CIRMI BRIA 
相 邻 神经 元 的 指针 按照 网 格 的 拓扑 用 线 相 连 。 因 此 ， 使 用 连 线 将 两 个 指针 w 和 w; 连 起 来 ， 表 
示 相 应 神经 元 ; 和 7 在 网 格 中 是 相 邻 神经 元 。 

性 质 3 密度 匹配 | 

特征 映射 四 反映 输入 分 布 在 统计 上 的 变化 ， 在 输入 空间 名 中 样本 向 量 X 以 高 的 概率 抽取 的 区 
域 映射 到 输出 空间 的 更 大 区 域 ， 从 而 比 在 吧 中 样本 向 量 X 以 低 的 概率 抽取 的 区 域 有 更 好 的 分 辨 率 。 

S 和 (xz 表示 随机 输入 向 量 x 的 多 维 概率 密度 函数 。 由 定义 ， 这 个 pdf 在 整个 输入 空间 上 
的 积分 必须 等 于 1: 

[T pdx =1 
令 m(x) 表 示 映 射 放大 (magnification) AF, CMAMAZ ALA) AAR dx 中 的 神经 元 个 数 。 
放大 因子 在 整个 输入 空间 多 的 积分 一 定 等 于 网 络 中 的 神经 元 总 数 B 

| moods =1 (9. 26) 
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对 于 准确 匹配 输入 密度 的 SOM 算法 ， 我 们 要 求 (Amari, 1980) 
m(x) oc px (x) (9. 27) 
这 个 性 质 意味 着 ， 如 果 输 入 空间 中 的 一 个 特殊 区 域 包 含 经 常 发 生 的 刺激 ， 那 么 与 刺激 出 现 较 少 
的 输入 空间 的 区 域 相 比 ， 它 将 用 特征 映射 中 更 大 的 区 域 表示 。 
一 般 地 ， 在 二 维特 征 映射 中 放大 因子 m(x) 不 能 表示 为 输入 向 量 x 的 概率 密度 函数 px CX) 
的 一 个 简单 函数 。 只 有 在 一 维特 征 映射 时 才 可 能 导出 这 样 的 关系 。 对 这 种 特殊 情况 ， 我们 发 现 
与 早 些 的 推测 〈Kohonen，1982》 相反 ， 它 的 放大 因子 m(x) 并 不 与 px (x*) 成 比例 。 基 于 采用 的 
编码 方法 ， 在 文献 中 报告 了 两 种 不 同 的 结果 : 
L 最 小 失真 编码 ， 根 据 这 个 编码 ， 式 (9. 22) 的 失真 测度 中 的 曲率 项 和 高 阶 项 由 于 噪声 模 
型 xCv) 仍 然 保 留 。 这 种 编码 方法 可 以 产生 结果 : 
m(x) cc pk? (x) (9. 28) 
这 与 标准 的 向 量 量化 器 得 到 的 结果 相同 (Luttrell, 1991a), 
2. 最 近邻 编码 ， 如 同 在 SOM 算法 的 标准 形式 中 ， 它 出 现在 忽略 曲率 项 的 时 候 。 这 个 编码 
方法 产生 结果 (Ritter, 1991) 
m(x) cc pl’ (x) (9. 29) 
我 们 前 面 关 于 一 族 经 常 发 生 的 刺激 可 以 在 特征 映射 中 由 更 大 的 区 域 来 表示 的 陈述 仍然 成 立 ， 虽 
然 是 用 式 (9. 27) 中 描述 的 理想 条 件 的 失真 形式 。 
作为 一 个 一 般 规则 (被 计算 机 仿真 确认 )， 由 SOM 算法 计算 的 特征 映射 往往 趋向 于 过 高 
表示 低 输入 密度 区 域 和 过 低 表 示 高 输入 密度 区 域 。 换 句 话 说 ，SOM 算法 不 能 为 输入 数据 固有 
的 概率 分 布 提供 可 信赖 的 表示 "”。 
性 质 4 特征 选择 
从 输入 空间 中 给 定数 据 ， 自 组 织 映射 能 够 为 通 近 固有 分 布 选择 一 组 最 好 的 特征 。 


这 个 性 质 是 性 质 1 至 性 质 3 的 自然 结论 。 性 质 4 使 人 想起 前 一 章 讨论 的 主 分 量 分 析 的 思 
想 ， 但 是 如 图 9.7 所 示 ， 它 们 有 一 个 重要 的 区 别 。 在 图 9. 7a 中 展示 被 加 性 噪声 损坏 的 线性 输 
入 一 输出 映射 导出 的 零 均 值 数据 点 的 二 维 分 布 。 这 种 情况 下 ， 主 分 量 分 析 工 作 得 很 好 它 告 i 
我 们 ， 在 图 9. 7a 中 的 “线性 ”分 布 的 最 好 描述 是 ， 定 义 成 通过 原点 且 平 行 于 数据 相关 和 矩阵 的 
最 大 特征 值 对 应 的 特征 向 量 平行 的 直线 〈 即 一 维 的 “ 超 平面 >) 。 接 下 去 考虑 图 9. 7b 所 描述 的 
情况 ， 这 是 受 零 均值 加 性 噪声 损坏 的 非 线 性 输入 一 输出 映射 的 结果 。 在 这 第 二 种 情形 从 主 分 量 
分 析 计算 的 直线 逼近 不 可 能 提供 可 接受 的 数据 描述 。 另 一 方面 ， 利 用 建立 在 一 维 神经 元 网 格 的 
自 组 织 映 射 则 由 于 它 的 拓扑 有 序 性 质 能 够 克服 这 个 逼近 问题 。 在 图 9. 7b 中 说 明 的 后 一 个 晕 近 
仅仅 当 网 格 的 维 数 和 分 布 的 回 有 维 数 匹配 时 工作 良好 。 











a) b) 


图 9.7 a) 线性 输入 -输出 映射 产生 的 二 维 分 布 ; b) 非 线性 输入 -输出 映射 产生 的 二 维 分 布 
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9.5 计算 机 实验 I : 利用 SOM 解 网 格 动力 学 问题 


I. 由 二 维 分 布 驱 动 的 二 维 网 格 

我 们 使 用 计算 机 仿真 来 说 明 SOM 算法 的 行为 ,通过 研究 576 个 神经 元 组 成 的 网 络 ， 排 列 
成 24 行 和 24 列 的 二 维 网 格 。 网 络 用 二 维 输入 向 量 x 训练 ， 它 的 分 量 zx; 和 zi 均匀 分 布 在 区 域 
(C 1I< az <I; (C1 <ar: 过 十 1)) 上。 为 了 初始 化 网 络 ， 突 触 权 值 从 一 个 随机 集合 抽取 。 

图 9. 8 显示 训练 网 络 学 习 表 示 输 入 分 布 的 三 个 阶段 。 图 9. 8a 显示 用 来 训练 特征 映射 的 数 
据 的 均匀 分 布 。 图 9. 8b 显示 随机 抽取 的 突 触 权 值 的 初始 值 。 图 9. 8c 和 图 9. 8d 分 别 表示 了 在 
排序 阶段 和 收敛 阶段 完成 后 相应 的 由 SOM 算法 计算 得 到 的 24X24 上 映射。 如 前 面 性 质 2 所 讨论 
的 那样 ， 在 图 9.8 中 将 网 络 中 相 邻 神经 元 用 线 连 起 来 〈 通 过 行 和 列 ) 。 

图 9. 8 所 示 的 结果 展现 表征 SOM 算法 学 习 过 程 特点 的 排序 阶段 和 收敛 阶段 。 图 9. 8c 显示 
排序 阶段 ， 映 射 展开 形成 的 网 格 。 在 这 个 阶段 之 后 神经 元 映射 为 正确 的 排序 。 在 收 钱 阶段 映射 
散 开 充满 输入 空间 。 在 第 二 阶段 结束 后 ， 如 图 9. 8d 所 示 ， 上 映射 中 神经 元 的 统计 分 布 接近 输入 
向 量 的 分 布 ， 除 了 一 些 变形 之 外 。 比 较 图 9. 8d 中 特征 映射 的 最 终 状 态 和 图 9. 8a 的 输入 均匀 分 
布 ， 我 们 看 出 收敛 阶段 映射 的 调整 抓 住 了 可 在 输入 分 布 中 看 到 的 局 部 不 规则 性 。 

SOM 算法 的 拓扑 排序 性 质 在 图 9. 8d 得 到 很 好 说 明 。 尤 其 观察 到 算法 〈 在 收敛 之 后 ) ET 
输入 中 均匀 分 布 的 固有 拓扑 。 图 9. 8 所 示 的 计算 机 仿真 中 输入 空间 饱和 输出 空间 x 都 是 二 维 的 。 
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图 9.8 a) 输入 数据 分 布 。b) 二 维 网 格 初始 情况 。c) 排序 阶段 之 后 网 格 情况 。 
d 收敛 阶段 之 后 网 格 情况 。 在 映射 b) c) d 之 下 的 时 间 表 示 迭 代 次 数 


I. 由 二 维 刺激 驱动 的 一 维 网 格 
我 们 现在 考查 当 输 入 空间 的 维 数 大 于 输出 空间 x 的 维 数 的 情况 。 尽 管 不 匹配 ， 特 征 映射 
@ 常常 能 形成 输入 分 布 的 拓扑 表示 。 图 9.9 显示 在 特征 映射 演化 过 程 中 的 三 个 不 同 的 阶段 ， 它 
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的 初始 化 如 图 9. 9b 所 示 ， 从 如 图 9. 9a 所 示 和 矩形 中 抽取 数据 进行 训练 ， 但 是 ， 这 一 次 计算 是 在 
100 个 神经 元 的 一 维 网 格 中 进行 的 。 图 9. 9c 和 图 9. 9d 分 别 表示 排序 和 收敛 之 后 的 特征 映射 。 
这 里 我 们 看 到 为 了 尽 可 能 紧密 地 填充 矩形 从 而 提供 二 维 输入 空间 史 的 固有 拓扑 的 良好 近似 ， 用 
算法 计算 的 特征 映射 是 非常 失真 的 。 在 图 9. 9d 所 示 的 近似 曲线 类 似 于 Peano 曲线 (Peano 
curve) (Kohonon，1990a)。 以 图 9.9 的 特征 映射 为 例 的 这 种 运算 被 称 为 维 数 前 减 (dimension- 
ality reduction)， 其 中 输入 空间 多 由 将 它 投影 到 的 低 维 输出 空间 x 来 表示 。 





























时 间 =50K 时 间 =100K 
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图 9.9 a) 二 维 输入 数据 分 布 ;b) 一 维 网 格 初始 情况 ; c) 排序 阶段 之 后 的 网 格 情况 ; 
dD 收敛 阶段 之 后 的 网 格 情况 。 在 映射 bj O, dD 之 下 的 时 间 表 示 和 迭代 次 数 


9.6 上 下 文 映 射 


自 组 织 特 征 映射 有 两 种 明显 不 同 的 可 视 化 方法 。 在 一 种 可 视 化 方法 中 ， 特 征 映 射 被 视 为 有 
弹性 的 网 络 ， 此 时 向 量 权 值 被 视 为 对 应 神经 元 的 指针 ， 指 向 输入 空间 。 这 种 可 视 化 方法 特别 适 
用 于 显示 SOM 算法 的 拓扑 排序 属性 ， 如 9. 5 节 给 出 的 计算 机 仿真 实验 结果 所 说 明 。 

在 第 二 种 可 视 化 方法 中 ， 对 二 维 网 格 (表示 网 络 的 输出 层 ) 的 神经 元 赋予 类 别 标号 ， 它 取 
决 于 每 个 测试 模式 (以 前 未 见 过 ) 如 何 激活 自 组 织 网 络 中 的 特定 神经 元 。 作 为 仿真 第 二 阶段 的 
结果 ， 二 维 网 格 中 的 神经 元 被 剖 分 成 许多 相干 区 域 (coherent region) ， 相 干 的 含义 是 神经 元 每 
个 分 组 表示 邻接 符号 或 标号 的 一 个 独特 的 集合 (Ritter，2003)。 这 里 首先 假定 产生 良 序 的 特征 
映射 的 正确 条 件 成 立 。 . 

例如 ， 考 虑 表 9.2 中 给 出 的 数据 集合 ， 它 们 是 关于 16 种 不 同 动物 的 。 表 的 每 一 列 是 对 动 
物 的 示意 性 描述 ， 它 是 根据 左边 13 个 不 同 的 属性 的 出 现 〈( 二 1) 或 不 出 现 〈 二 0) 而 描述 。 一 
些 属性 例如 “羽毛 ”和 “两 条 腿 ” 是 相关 的 ， 而 其 他 许多 属性 是 不 相关 的 。 对 表 头 给 出 的 每 个 
动物 ， 它 的 属性 代码 x 是 由 13 个 属性 构成 。 动 物 本 身 由 符号 代码 x 指定 ， 符 号 代码 的 组 成 必 
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须 不 表达 动物 的 任何 信息 或 它们 之 间 已 知 的 相似 点 。 例 如 当前 的 例子 ，x. 是 由 一 个 列 向 量 构成 ， 
EEk DIER, KRW k= 1,2,…,16 ， 赋 予 一 个 固定 值 a; 剩 下 的 元 素 都 置 成 0。 参 数 < 与 
属性 代码 比较 而 言 决定 符号 代码 之 间 的 相关 影响 。 为 了 确定 属性 代码 是 重要 的 ，a 选择 为 0. 2。 
每 个 动物 的 输入 向 量 x 是 29 个 元 素 的 向 量 ， 表 示 属 性 代码 x 和 符号 代码 x, 的 联合 ， 表 示 为 
X, X, 0 
x= [>] = iA +[e] 
最 后 ， 每 个 数据 向 量 都 被 归 一 化 为 单位 长 度 。 这 样 产生 的 数据 集 的 模式 被 呈现 给 10X 10 的 二 维 
神经 元 网 格 ， 神 经 元 的 权 值 按照 9. 3 节 中 阐述 的 SOM 算法 调整 。 训 练 连续 进行 2 000 次 和 迭代， 此 
时 特征 映射 应 该 达到 一 个 稳定 状态 。 接 着 ， 由 一 个 动物 包含 的 符号 代码 x 二 [x ,0] 定义 的 测试 模 
式 呈 现 给 自 组 织 网 络 ， 并 且 确 定 具 有 最 强 响 应 的 神经 元 。 对 所 有 的 16 种 动物 都 重复 这 样 做 。 
表 9.2 动物 的 名 称 和 它们 的 属性 














动物 Sr 和 母 鸡 ORS i HAR & E 狐狸 狗 mR WR E W 马 BS HF 
小 型 1 1 1 1 1 1 0 0 0 0 1 0 0 0 0 0 
为 | 中 型 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 
大 型 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 

2 条 腿 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 

4 条 腿 0 0 0 o 0 0 0 1 1 1 1 1 1 1 1 1 

| BE 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 
有 Bi 0 0 0 0 0 0 0 0 0 0 0 0 0 1 .1 1 
z 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 0 
WE 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 
jee 0 0 0 0 1 1 1 1 0 1 1 1 1 0 o 0 
奔跑 0 0 0 0 0 0 0 0 1 1 0 1 1 1 1 0 
擅长 飞翔 1 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 
游泳 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 





按 刚才 陈述 的 方法 处 理 ， 我 们 得 到 如 图 9. 10 所 示 的 映射 ， 其 中 标记 名 称 的 神经 元 代表 它 
们 对 各 自 的 测试 模式 有 最 强 的 响应 ， 图 中 未 被 占据 的 矩形 空间 表示 有 较 弱 的 响应 的 神经 元 。 





图 9. 10 ”包含 对 它们 各 自 输入 具有 最 强 响应 的 标定 神经 元 的 特征 映射 
图 9. 11 对 相同 的 自 组 织 网 络 显示 “模拟 电极 渗透 映射 ”的 结果 。 但 是 ， 图 中 网 络 的 每 个 
神经 元 用 使 之 产生 最 好 响应 的 特定 动物 名 称 标记 。 图 9. 11 清楚 地 表明 在 16 个 不 同 的 动物 中 特 
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征 上 映射 能 抓 住 “种 属 关 系 "。 这 里 有 三 个 不 同 的 聚 类 ， 第 一 个 表示 “ 鸟 类 ”， 第 二 个 表示 “平和 
的 种 属 ”， 第 三 个 表示 “猎手 ”。 


x 


母 鸡 


母 鸡 





0 l 2 3 4 5 6 7 8 9 10 


图 9. 11 利用 “模拟 电极 渗透 映射 ”的 语义 映射 。 映 射 被 分 成 三 个 不 同 区 域 ， 
PARRA CA). KAA GRKE) RIF KE) 


图 9. 11 表示 的 特征 映射 类 型 称 为 上 下 文 映 射 或 语义 映射 〈Ritter,2003) 。 这 个 映射 与 大 脑 
皮质 的 映射 相似 〈 即 在 大 脑 皮质 里 形成 的 计算 映射 )， 这 在 9. 2 节 中 做 过 简要 讨论 。 作 为 利用 
SOM 算法 产生 的 结果 ， 上 下 文 映射 在 众多 领域 都 有 应 用 ， 诸 如 文本 的 音素 类 别 的 无 监督 分 类 ， 
遥感 (Kohonen，1997a)， 数 据 探测 或 数据 挖 气 (Kohonen，1997b)。 


97 分 层 向 量 量化 


在 9.4 节 自 组 织 特征 映射 的 性 质 1 的 讨论 中 ， 我们 指出 在 向 量 量化 方面 它 与 广义 Lloyd 算 
法 紧密 相关 。 向 量 量化 是 有 损 (lossy〉 数据 压缩 的 一 种 形式 ， 有 损 是 指 一 些 包 含 在 输入 数据 
中 的 信息 由 于 压缩 的 结果 丢失 了 。 数 据 压缩 植 根 于 香农 信息 论 的 一 个 分 支 ， 称 为 率 失真 〈rate 
distortion) 理论 (Cover and Thomas，2002)。 目 前 要 处 理 分 层 向 量 量化 ， 以 陈述 下 面 率 失真 
理论 的 基本 结果 作为 开始 是 很 适合 的 〈Gray，1984) : 

通过 获得 向 量 编码 而 不 是 标量 编码 ， 总 是 能 够 取得 好 的 数据 压缩 性 能 ， 即 使 数据 源 是 无 记 
忆 的 (例如 ， 它 提供 一 系列 独立 随机 变量 )， 或 者 数据 压缩 系统 有 记忆 ( 即 编 码 器 的 动作 依赖 
于 编码 器 以 前 的 输入 或 输出 )。 

这 一 基本 结果 成 为 数 十 年 来 对 向 量 量 化 的 广泛 研究 工作 的 基础 。 

然而 ， 传 统 的 向 量 量化 算法 要 求 大 量 的 计算 。 向 量 量化 最 费时 的 部 分 是 编码 操作 。 在 编码 
过 程 中 ， 输 入 向 量 必 须 与 每 一 个 在 码 书 中 的 代码 向 量 作 比 较 ， 以 便 决 定 哪 一 个 特别 的 代码 产生 
最 小 失真 度 。 例 如 对 于 码 书 包含 N 个 码 向 量 ， 编 码 所 花 的 时 间 依 赖 于 N 的 阶 ， 这 样 对 大 的 N 
值 所 花 时 间 就 多 。 在 Luttrell(1989a) 中 描述 了 一 个 多 阶段 分 层 (multistage hierarchical) 向 
量 量 化 器 ， 它 用 精度 换取 编码 速度 。 多 阶段 分 层 向 量 量化 器 试图 将 所 有 的 向 量 量化 过 程 分 解 成 
许多 子 操作 ， 每 个 子 操作 仪 要 求 少量 的 计算 。 理 想 的 分 解 对 每 个 子 操作 简化 为 简单 的 查 表 。 通 
过 巧妙 地 使 用 SOM 算法 来 训练 量化 器 的 每 一 阶段 ， 准 确 性 的 丢失 可 能 很 少 ( 低 到 几 分 之 一 分 
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W (decibel))， 同 时 计算 速度 的 增益 可 能 很 大 。 

考虑 两 个 向 量 量化 器 VQ AVQ, AFP VQ 将 证 的 输出 送 到 VQs 作为 其 输入 。VQ; 的 
输出 是 应 用 于 VQ 的 原 输入 信号 的 最 终 编 码 形式 。 在 运行 它 的 量化 过 程 中 ，VQ; 不 可 避免 地 
抛弃 一 些 信息 。 就 VQ, ME., VQ 仅 有 的 作用 是 扭曲 VQ 输出 的 信息 。 这 样 很 明显 对 VQ 
的 正确 的 训练 方法 是 SOM 算法 ， 它 对 VQ 诱导 的 信号 失真 负责 (Luttrell,1989a)。 要 使 用 广 
X Lloyd 算法 来 训练 VQ: ， 我 们 仅 需 要 假定 VQ; 的 输出 在 重建 之 前 没有 被 损坏 。 从 而 我 们 无 
需 引 入 噪声 模型 CE VQ, 的 输出 ) 及 相应 的 有 限 宽度 邻 域 函数 。 

我 们 可 以 推广 这 个 启发 式 的 结论 到 多 阶段 量化 器 。 必 须 设计 每 一 阶段 使 之 考虑 所 有 的 后 面 阶段 
导致 的 失真 并 且 为 它 建立 噪声 模型 。 因 此 ， 
使 用 SOM 算法 训练 量化 器 的 所 有 阶段 ， 除 了 
最 后 一 个 阶段 适宜 用 广义 Lloyd 算法 训练 。 

分 层 向 量 量化 过 程 是 多 阶段 向 量 量 化 的 
特例 。 作 为 一 种 例证 ， 考 虑 4X1 的 输入 向 量 
x= [xi sXe 9X3 9X4 ,| 
的 量化 。 在 图 9. 12a 中 给 出 用 于 x 的 单 阶段 
向 量 量 化 器 。 另 外 ， 可 以 使 用 如 图 9. 12b 
所 描绘 的 两 阶段 分 层 量化 器 。 这 两 个 模式 
的 重要 区 别 是 在 图 9. 12a 的 量化 器 输入 维 
数 为 4 而 在 图 9. 12b 中 它 是 2。 因 此， 图 
9. 12b 的 量化 器 要 求 小 规模 的 查找 表 ， 因 此 
比 图 9. 12a 的 量化 器 实现 简单 。 这 是 分 层 图 9.12 a) 具有 四 维 输入 的 单 阶段 向 量 量化 器 ; b) 使 


> 用 两 个 输入 的 两 阶段 分 层 向 量 量化 器 (摘自 
量化 器 比 传统 量化 器 优越 之 处 ° S. P. Luttrell (1989a), British Crown 版 权 ) 


案例 研究 ”一 阶 自 回归 模型 | 
Luttrell (1989a) 展示 了 多 阶段 分 层 向 量 量化 器 应 用 到 不 同 的 随机 时 间 序 列 的 性 能 ， 编 码 
YE WARE ERD. TERS 9.13 中 我 们 利用 一 阶 自 回归 (AR) 模型 
a(n+1) = ar(n) + v(m) (9. 30) 
产生 了 具有 相关 高 斯 噪声 过 程 的 Luttrell HAR, HP p 为 AR 系数 ，v(n) 为 具有 零 均 值 和 单 
位 方差 的 统计 独立 同 分 布 〈iid) 高 斯 随机 变量 集合 中 取得 。 因 此 我 们 可 以 证 明 z(z) 的 统计 特 
征 如 下 : 








ELz(n) ]= 0 (9. 31) 
Elz’ (n) ]= 1 z (9. 32) 
1 一 6 
Elerin t Drm] 3 
ELz’?(n) ] (9. 33) 


因此 o 也 可 看 成 时 间 序 列 {z(z)) 的 相关 系数 。 要 按照 式 (9. 30) 初 始 化 生成 的 时 间 序 列 ， 对 
z(0) 使 用 均值 为 零 和 方差 为 1/(1 一 p*) 的 高 斯 随机 变量 ,并且 相关 系数 使 用 po 一 0. 85. 

对 于 向 量 量化 使 用 类 似 于 图 9. 12b 中 的 二 分 树 一 样 具 有 四 维 输入 空间 的 分 层 编码 器 。 对 于 
AR 时 间 序 列 {z(z)}， 平 移 对 称 意味 着 仅 需 两 个 不 同 的 查找 表 。 每 张 表 的 大 小 按 指数 依赖 于 输 
人 比特 数 ， 而 线性 依赖 于 输出 比特 数 。 在 训练 过 程 中 ， 需 要 大 量 比特 数 表示 式 (9. 24) 描 述 的 更 
新 的 正确 计算 数 ， 这 样 在 训练 期 间 不 使 用 查找 表 。 但 是 一 旦 训练 完成 ， 比 特 数 可 降低 至 它们 的 
正常 水 平 ， 并 且 按 要 求 填充 表 项 。 对 于 如 图 9. 12b 显示 的 编码 器 ， 每 个 输入 样本 用 4 比特 近 
似 。 对 解码 器 的 各 个 阶段 ， 使 用 N(==17) 个 码 字 向 量 ， 这 样 从 每 个 查找 表 的 输出 比特 数 也 近似 


第 9 章 BARRË - 285 


为 4。 因 此 第 一 阶段 和 第 二 阶段 的 查找 表 的 地 址 空间 的 大 小 为 256( 王 2 …)， 这 意味 着 查找 表 
的 表示 所 需 存 储 要 求 是 适中 的 。 

图 9.13 显示 用 xz(n) 作 为 输入 得 到 的 编码 -解码 结果 。 图 9. 13a 的 下 半 部 分 显示 两 阶段 中 每 
个 阶段 的 编码 向 量 为 一 条 嵌入 二 维 输入 空间 的 曲线 ; 图 9. 13a 的 上 半 部 分 表示 相应 的 用 16 X16 
比特 的 共生 (co-occurrence) 和 矩阵 的 估计 。 图 9. 13b 表示 如 下 时 间 序 列 片段 。 

。 由 第 一 个 编码 阶段 计算 的 编码 向 量 。 

。 保持 其 他 变量 固定 ， 由 第 二 阶段 最 小 化 均值 平方 失真 计算 出 的 重 构 向 量 。 

图 9. 13c 显示 512 个 样本 ， 包 括 原始 时 间 序 列 〈 顶 部 曲线 ) 和 从 最 后 一 个 编码 器 阶段 的 输 
出 得 到 的 它 的 重 构 (底部 曲线 ); 图 9. 13c 的 水 平方 向 的 刻度 是 图 9. 13b 的 一 半 。 最 后 ， 图 
9. 13d 表示 从 一 对 样本 《原始 时 间 序 列 样 本 和 它 的 相应 重 构 ) 产生 的 共生 矩阵。 图 9. 13d 中 的 
带宽 指示 由 分 层 向 量 量化 产生 的 失真 程度 。 

检查 图 9. 13c 的 波形 ， 可 以 看 出 除了 一 些 正 的 和 负 的 峰值 被 剪除 之 外 重 构 是 对 原始 时 间 序 
列 的 好 的 表示 。 根 据 Luttrell(1989a) ， 计 算得 到 的 归 一 化 后 的 均值 平方 失真 同 每 个 样本 用 一 比 
_ 特 的 单 阶段 4 一 样本 决 编码 峰 所 获得 的 几 于 一样 好 (Jayant and Noll, 1984). 














原始 


c) d) 


图 9. 13 用 于 相关 高 斯 噪声 输 压 缩 的 两 阶段 编码 /解码 结果 。 相 关系 数 o 一 0. 85 
GHA S. P. Luttrell(1989a), British Crown 版 权 》 


9.8 核 自 组 织 映 射 


Kohonen 的 自 组 织 映 射 算法 对 于 探测 大 量 高 维 数据 是 很 强大 的 工具 ， 这 从 多 个 大 规模 视觉 
和 数据 挖 握 应 用 中 得 到 了 例证 。 然 而 ， 从 理论 的 角度 ， 自 组 织 映射 存在 着 两 个 基本 的 局 限 : 
L 由 算法 提供 的 输入 空间 概率 密度 函数 的 估计 缺少 精度 。 实 际 上 ， 在 图 9. 8 的 实验 结果 
中 已 经 说 明了 算法 的 这 一 缺点 。 这 一 缺点 也 从 理论 上 是 存在 的 ， 在 式 (9. 28) 或 式 (9. 29) 中 ,无 
论 哪 一 个 ， 算 法 的 密度 匹配 性 质 都 是 不 完美 的 。 
2. 算法 的 构成 中 不 存在 可 以 用 于 最 优化 的 目标 函数 。 考 虑 算法 的 非 线性 随机 特征 ， 缺 少 
目标 函数 使 得 对 于 收敛 性 的 证 明 这 一 问题 变 得 更 加 困难 。 
实际 上 ， 很 大 程度 上 是 因为 自 组 织 映 射 的 这 两 个 局 限 ， 尤 其 是 后 者 ， 促 使 很 多 研究 者 设计 
不 同 的 途径 来 构成 特征 映射 模型 。 在 本 节 中 我 们 描述 由 Van Hulle(2002b) 提出 的 基于 核 的 自 


286 .第 9 章 自 组 织 映 射 


组 织 映射 形式 ， 其 动机 在 于 改善 拓扑 映射 。 
H tr phi Be 

在 我 们 前 面 讨论 的 核 方法 的 应 用 中 ， 以 支持 向 量 机 SVM) 和 核 主 分 量 分 析 为 例 ， 核 参数 通常 
是 固定 的 。 与 之 相 比 ， 在 核 自 组 织 映 射 中 ， 网 格 结构 的 每 个 神经 元 作为 一 个 核 。 这 样 使 得 核 参 数 根 
据 预定 义 的 目标 函数 各 自 调整 ， 而 目标 函数 迭代 性 地 最 大 化 以 便 形成 满意 的 拓扑 映射 。 

在 本 节 中 ， 我 们 集中 注意 力 于 核 〈 即 神经 元 ) 输出 的 联合 炳 (joint entropy)， 称 之 为 目标 
BR. MHiCSeEA 10 章 中 详细 讨论 。 对 于 目前 而 言 ， 足 够 通过 新 概念 的 定义 而 开始 讨论 。 
考虑 连续 随机 变量 Y,， 其 概率 密度 函数 定义 为 Py, (y;)， 其 中 样本 值 y: 位 于 范围 Syo, 
Y; KHAIA (differential entropy) 定义 为 ; 


H(Y,) =- f py, (lowes, (y)dy: (9. 34) 


这 里 用 log 来 定义 对 数 以 便 和 第 10 章 的 术语 相 一致 。 对 于 核 SOM， 随 机 变量 Y 与 网 格 中 第 i 
个 核 的 输出 相关 联 ，y 是 Y; 的 一 个 样本 值 。 

在 下 面 ， 我 们 将 进行 自 底 向 上 方式 : 

。 首先 最 大 化 给 定 核 的 微分 精 。 

。 然后 ， 当 已 经 达到 最 大 化 时 ， 调 整 核 参数 来 最 大 化 核 输出 和 输入 之 间 的 交互 信息 。 我 

们 将 在 后 面 对 第 二 个 新 概念 作 进一步 说 明 。 

核 的 定义 

记 核 为 kx，w;，o;)， 其 中 x 是 m 维 输入 向 量 ，w, 是 第 i 个 核 的 权 值 (参数 ) ME, o 是 
宽 ; 索引 i 二 1,2,…,L, 其 中 i 是 构成 映射 的 网 格 结构 的 神经 元 总 个 数 。 分 配 索 引 i 给 核 宽 以 及 
权 向 量 的 基本 原理 是 这 两 个 参数 将 被 迭代 性 地 调整 。 由 于 核 呈 放射 状 地 围绕 其 中 心 对 称 ， 定 义 
为 wi， 我 们 有 

kxXyWiso) = kC || x— w: || soD, i=1,2,.,l (9. 35) 

其 中 || x 一 w; | 是 输入 向 量 x 和 权 值 向 量 w 之 间 的 欧 几 里 得 距离 ， 这 两 者 具有 相同 的 维 数 。 

现在 ， 正 如 SVM 和 核 PCA 的 例子 中 所 示 ， 我 们 期 望 用 概率 分 布 〈 即 某 种 高 斯 形式 ) 来 
定义 核 。 我 们 也 将 寻找 概率 分 布 但 采用 核 的 不 同 定 义 ， 这 将 在 下 面 解释 。 

设 核 输出 y 具有 “有 界 ” 支 撑 。 则 由 式 (9. 3O NAY E Y: 服从 均匀 分 布 
时 达到 最 大 。( 关 于 这 一 陈述 的 证 明 在 于 箭 是 随机 性 的 测量 ， 而 均匀 分 布 是 随机 性 的 极端 形 
式 。) 刚 提 到 的 最 优 性 的 条 件 在 当 输出 分 布 和 输入 空间 的 累积 分 布 函数 相 匹配 时 发 生 。 对 于 高 
斯 分 布 输 入 向 量 x， 我 们 发 现 相应 的 欧 几 里 得 距离 x 一 w; 的 累积 分 布 函数 是 不 完全 gamma 分 布 
(incomplete gamma distribution)。 将 在 后 面 加 以 定义 的 这 一 分 布 是 所 期 望 的 核 的 定义 。 

令 输 入 向 量 x 的 m 个 元 素 是 统计 独立 同 分 布 (iid) 的 ， 第; 个 元 素 服从 均值 为 方差 为 
o 的 高 斯 分 布 。 令 vv 定义 输 入 向 量 x 和 均值 向 量 p= [yw vp，… opa] 之 间 的 欧 几 里 得 距离 的 平 
FA, WP Rm: 





v= ||x—pll? =>) — Bp” (9. 36) 


随机 变量 V， 由 样本 值 RM, RA KA 分 布 (chi-square distribution)， 如 下 所 示 
(Abramowitzand Stegun, 1965); 


Cm/2)—-1 





v 
py (v) = exp(— a) > v0 (9. 37) 


1 
a” 2" TGm/2)~ | 
其 中 mx 是 分 布 的 自由 度 个 数 (number of degrees of freedom), ['(+)f gamma we, BMA: 
Ta) = [Pen exp(— z)dz (9. 38) 
0 
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令 r 记 到 核 中 心 的 半径 距离 ， 定 义 为 : 
r= v” = ||x—-p] (9. 39) 
这 表示 了 新 的 随机 变量 玉 的 样本 值 。 然 后 ， 利 用 将 随机 变量 V 变换 为 随机 变量 RR 的 规则 ， 我 
们 写成 : 
_ pv) 


az 


利用 这 一 变换 ， 我 们 发 现 经 过 一 些 合适 的 代数 操作 之 后 ， 由 样本 值 + 表示 的 随机 变量 R 的 概率 
密度 函数 由 下 式 给 出 (参看 习题 9. 8) : 


r m1 r? 
prr) = [ra (5) elgg) r> (9. 41) 
0; r<i0 
图 9. 14 中 的 连续 曲线 是 pr (7r) 对 于 距 高 7 的 单位 方差 及 m = 1,2,3… 的 概率 密度 函数 图 。 从 这 
些 图 中 我 们 看 出 随 着 输入 空间 维 数 m AI. PRO RKB BR. BAAR. BIR 
斯 函数 的 二 阶 统计 参数 定义 为 (Van Hulle, 2002b) 
ECR) ~ yma 
Var[ R] ~ Z 


随机 变量 RR 的 累积 分 布 函 数 将 在 习题 9.9 的 (a) 中 提 及 ， 其 解 由 不 完全 gamma 分 布 定义 
(Abramowitz and Stegun, 1965); 


Pe) (9, 40) 





pra m (9. 42) 


(9. 43) 


WET (Fs |T (到) 是 不 完全 
gamma 分 布 的 补 (complement of the 
incomplete gamma distribution) ， 其 对 单 
位 方差 和 增长 的 m 关于 距离 7 的 图 也 包 
含 在 图 9. 14 OA, HA E 
供 了 期 望 核 的 图 形 。 具 体 来 说 , Hee 
成 是 输入 向 量 x 和 第 i 个 神经 元 的 权 值 
Haw 之 间 欧 几 里 得 距离 的 平方 ， 最 后 
相应 的 核 六 x,wi,6) 定义 如 下 《Van 
Hulle, 2002b): 











_ 1 m lx—wl’\ . 
R(X, Wi 0:;) = F m r( 2 9 一 2 E 
(7) 
i= 1,2, (9-44) 图 9. 14 显示 了 对 距离 + 的 两 个 不 同 图 集 的 图 ， 对 于 单位 
注意 以 > 一 外 x 一 w | 为 中 心 的 核对 于 所 方差 和 增长 的 维 数 m=1, 2, 3, 0: 
有 的 ;是 放射 状 对 称 的 。 更 重要 的 是 ， 不 。 连续 曲线 是 式 (9. 41) 的 概率 密度 函数 
证 、 ` 。 短 划 线 是 不 完全 gamma 分 布 的 补 图 ， 或 者 
完全 gamma 分 布 的 采用 保证 了 当 输 和 人 分 HERO. ADP r= | x—w ll 的 核 ROOM 


布 是 高 斯 时 核 的 微分 是 最 大 的 。 (这 个 图 的 复制 得 到 了 Dr Mare Van Hulle 的 许可 ) 
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映射 构造 的 学 习 算法 

有 了 式 (9. 44) 的 核 函 数 ， 我 们 现在 为 构成 自 组 织 拓扑 公式 的 算法 做 好 了 准备 ， 在 映射 中 利 
用 核 函 数 来 描述 每 个 神经 元 

我 们 通过 推导 由 (9. 34) 式 定义 的 目标 函数 对 于 核 参 数 〈 权 值 向 量 w 和 核 宽 o ,i = 1,2,01) 
的 梯度 公式 来 开始 。 然 而 ， 如 目前 的 状况 ， 目 标 函 数 AYO BE MER i 个 神经 元 输出 之 上 : 

yi = ROX Wig ds i= 1,2,°,l (9. 45) 

另 一 方面 ， 式 (9. 41) 的 分 布 是 定义 在 到 核 的 中 心 的 半径 距离 + 之 上 的 。 因 而 我 们 需要 将 随机 变 
量 尺 变换 到 Y;， 且 相应 地 得 到 ， 





pr (9) = Pa (9. 46) 
ay: 
dr 

这 里 右 端 的 分 母 部 分 说 明 y 对 于 7 的 依赖 性 。 因 此 ， 将 式 (9.46) 代 人 式 (9.34)， 可 以 重新 定 


义 目 标 函 数 AYIA: 
H(Y;) =—| pa(log Prodr | pr(r)log 


为 了 进一步 做 下 去 ， 首 先 考 虑 五 (Y;) 关 于 权 值 向 量 w 的 梯度 。 GANAN- NUTT 
w;。 第 二 项 是 偏 导数 log| (ay (r))Vdr | 的 期 望 . 因 此 可 以 将 昌 (Y;) 对 于 w 的 导数 表达 为 : 


oHCY;) a Be (r) 
ana a afis] z 


现在 假设 对 于 每 个 核 我 们 从 7 的 一 个 训练 样本 开始 来 逼近 概率 密度 函数 pr(7) 以 最 大 化 核 输出 
yi(7) 的 微分 粹 。 然 后 将 式 (9. 48) 的 右 端 项 的 期 望 用 确定 量 来 代替 ， 如 下 所 示 : 





a (r) (9. 47) 



































Oy) | 7 ay Cr) 
E| log a ] log | 2 (9. 49) 
其 中 了 (C7) 是 y(7) 在 r 的 训练 样本 之 上 的 平均 值 。 相 应 地 ， 重 写 式 (9. 48) 为 简单 形式 : 
Bw ow, log Ər ) 
_ or 9 0 yi(7) 
aw, 5, (Ie ar (9. 50) 


FEH y ORAARG. 44) 定 义 的 不 完全 gamma 分 布 相似 的 形式 ， 它 的 使 用 产生 了 Baad 
题 9.9 的 (b)): 





a7) —2 ml r 
= r exp(— aa (9.51) 
or Pm/2) G20)" ( 20° ) 


回忆 核 是 以 下 面 的 点 为 中 心 而 对 称 的 : 

r= ||x—w. ll 
因而 ， 实 现 式 (9. 51) 中 的 ayar 对 wi 的 仿 微 分 且 将 其 结果 代 人 和 人 式 (9. 50)， 得 到 经 过 简 
化 ) 





OH.) _ XT. m1) (754 5) (9. 52) 


ow, o? | x — w; I|? 
下 面 关 于 式 (9. 52) 的 两 个 备注 是 值得 注意 的 : 
CO 等 式 的 右 端 两 项 对 于 大 的 迭代 次 数 收敛 到 输入 向 量 x 的 中 心 。 
Ci) 对 于 维 数 m 的 高 斯 分 布 输入 向 量 x， 从 前 面 的 讨论 中 我 们 知道 期 望 为 : 
EL | x— w: ll? ] = moi (9. 53) 
因此 ， 对 于 所 有 m， 等 式 的 右 端 第 二 项 希望 比 第 一 项 更 小 。 
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从 计算 的 观点 看 ， 高 度 期 望 简化 式 (9. 52) 使 得 我 们 可 以 对 关于 权 值 向 量 w; 的 更 新 规则 利 
用 单一 的 学 习 率 参数 来 完成 * 。 对 此 我 们 选择 一 个 启发 式 建议 : 将 平方 欧 几 里 得 项 | x—w, ||’ 
用 式 (9. 53) 的 期 望 值 来 代替 ， 因 而 可 通过 如 下 方式 来 通 近 式 (9. 52): 


oHG,) — W; . 
ay et 对 于 所 有 i (9. 54) 


最 大 化 目标 函数 ， 权 值 更 新 很 自然 地 作用 在 式 (9. 54) 的 梯度 向 量 的 相同 方向 二， 与 梯度 上 升 
(gradient ascent) 相 一 致 。 我 们 可 以 写 : 
aM) 


Awi = | Ow; 


其 中 p 是 小 的 学 习 率 参数 。 将 输入 向 量 x 的 固定 维 数 m 吸收 到 pe 我 们 最 后 可 以 表示 权 值 更 
新 为 : 











aw, ~ q (=) (9. 55) 
因此 关于 核 SOM 算法 的 第 一 个 更 新 公式 为 : 
wi = w + Aw, = wit w (5) (9. 56) 


其 中 w 和 wi 分 别 表示 老 的 和 更 新 后 的 神经 元 i 的 权 值 向 量 的 值 。 
下 面 考虑 目标 函数 AGO PRS o 的 梯度 向 量 。 同 以 前 所 讲述 的 梯度 向 量 OG; / Cow, ) 
相似 的 方式 进行 ， 得 到 : 








oH) _ 1/lx—wl’ 
a —( mat 1) (9.57) 
然后 定义 核 宽 的 调整 为 : 
_. dhG)_ m/l|x—wl” 
Ao = p Sam E ( mat 1) (9. 58) 
其 中 六 为 第 二 个 学 习 率 参数 。 对 于 核 SOM 算法 的 第 二 个 更 新 公式 ， 我 们 有 
of =o; + A= a4 1 ( | x= w IC 1) (9.59) 
Oi mo ; 





由 式 (9. 5 MRO. 59) 给 出 的 两 个 更 新 规则 对 于 单一 神经 元 工作 良好 。 下 面 我 们 考虑 对 于 多 个 
神经 元 的 网 络 的 扩展 。 
目标 本 数 的 联合 最 大 化 

在 一 个 神经 元 接着 一 个 神经 元 的 基础 上 最 大 化 目标 函数 百 (y) 对 于 可 使 用 的 算法 而 言 是 不 
充分 的 。 为 了 了 解 为 什么 这 是 真 的 ， 考 虑 由 两 个 神经 元 组 成 的 网 格 ， 其 相应 的 核 输出 记 为 y 
和 ya。 当 使 用 式 (9. 56) 和 式 (9. 59) 的 更 新 公式 时 ， 例 如 假设 高 斯 输入 分 布 ， 这 两 个 神经 元 核 
最 终 将 相互 一 致 ， 换 名 话说， 两 个 核 输出 y 和 ys 成 为 统计 相关 。 为 了 预防 这 一 不 满意 的 可 能 
性 (为 了 尽 可 能 保持 y 和 yz 之 间 的 统计 独立 性 )， 我 们 需要 通过 将 核 自 适应 放 入 竞争 学 习 框 
架 来 最 大 化 目标 函数 HG)» ， 这 和 我 们 推导 Kohonen 的 SOM 算法 时 是 一 样 的 。 则 在 竞争 中 获 
胜 的 神经 元 的 核 将 要 降低 其 和 邻 域 神经 元 交互 作用 的 范围 ， 尤 其 当 获 胜 神 经 元 是 强烈 活 贱 时; 
因此 ， 邻 域 神经 元 之 间 的 覆盖 减少 了 。 而 且 ， 正 如 在 Kohonen 的 SOM 算法 中 那样 ， 为 了 对 输 
入 空间 的 数据 分 布 拓 扑 保持 其 神经 元 网 格 ， 我 们 对 学 习 过 程 强 加 一 个 邻 域 函数 。 相 应 地 ， 竞 争 
学 习 和 邻 域 函数 的 组 合 使 用 使 得 我 们 能 够 对 多 个 神经 元 运用 两 个 更 新 规则 ， 这 将 在 下 面 讨论 。 
拓扑 映射 构造 

考虑 由 ! 个 神经 元 组 成 的 网 格 4， 这 些 神经 元 是 由 相应 的 核 集 ( 不 完全 gamma 分 布 的 补 ) 
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刻画 的 : 
&RCX，wWiyai)， 7=1,2,°,/ (9. 60) 
带 着 拓扑 映射 构造 的 目的 ， 我们 引入 基于 活跃 程度 的 在 网 格 x 的 1 个 神经 元 之 间 的 竞争 ， 获 胜 
神经 元 被 定义 为 : 
i(x) = arg max y; (x), 当 7 EE (9. 61) 
注意 这 里 的 相似 性 匹配 准则 和 式 (9. 3) 的 形式 不 同 ， 式 (9. 3) 是 基于 最 短 距 离 神经 元 竞争 的 。 式 
(9. 3) 和 和 式 (9. 61) 这 两 个 准则 仅仅 在 当 所 有 的 神经 元 核 都 具有 相同 的 宽 CEE) 时 才 等 价 。 
为 了 提供 拓扑 映射 构造 所 需要 的 信息 ， 正 如 Kohonen 的 SOM 那样 ， 我 们 引入 和 邻 域 函数 
hjiw > 以 获胜 神经 元 ix) 为 中 心 。 而 且 ， 根 据 9. 3 节 的 讨论 ， 我 们 采用 距 获胜 神经 元 i(x) 的 
网 格 距 离 的 单调 减 函 数 。 特 别 地 ， 选 择 式 (9. OM BAAR. KER BME: 


ww lz 
ay wl ). jes (9. 62) 


这 里 o 记 邻 域 函数 ,iw 的 范围 ; 不 要 将 邻 域 范围 o 和 核 宽 o; HRA. 
核 SOM 算法 小 结 

现在 我 们 为 描述 核 自 组 织 映 射 的 步骤 做 好 了 准备 : 

1. 初始 化 。 对 初始 权 值 向 量 w(0) 和 核 宽 OG 一 1,2,… ,2) 选择 随机 值 ， 这 里 7 是 网 格 
结构 中 神经 元 的 总 个 数 。 这 里 仅 有 的 限制 是 对 不 同 的 神经 元 w(0) 和 (0) 也 不 同 。 

2. 取样 。 从 输入 分 布 中 按 一 定 的 概率 取出 一 个 样本 x。 

3. 相似 性 匹配 。 在 算法 的 时 间 步 x， 用 下 面 的 准则 来 确定 获胜 神经 元 ix) : 

i(x) = arg maxy; (x), 了 一 1:,2……，7 


4. 自 适应 。 调 整 权 值 向 量 和 每 个 核 的 宽 ， 使 用 相应 的 更 新 公式 ， 





hj,ix = exp 





win) + Whit (x(n) —wj(n)), FEA 
wi (2 十 1) = oj (9. 63) 
W; (n), 否则 
Wh jiw I x(n) 一 Wi (Cn) | ? 1 . 
(nt) yr" StL mat) |, ses (9. 64) 
on), 否则 


这 里 qe Aly. 为 学 习 算 法 的 两 个 学 习 率 参数 ho 是 以 获胜 神经 元 !(x) 为 中 心 的 邻 域 函 数 ， 根 
据 式 (9. 61) 定 义 。 如 Kohonen 的 SOM, RIRE o 允许 随时 间 指 数 衰减 。 | 


9.9 HEMI: 利用 核 SOM 解 点 阵 动力 学 问题 


在 这 一 试验 中 ， 我 们 回顾 二 维 网 格 ， 这 已 经 在 9. 5 节 的 计算 机 实验 工 中 进行 了 研究 。 这 一 

次 实验 中 我 们 采用 核 SOM。 选 择 算法 中 的 两 个 学 习 率 参数 为 : 

加 一 0.01 
和 

qe = 10 qw 
二 维 网 格 是 由 24X24 神经 元 组 成 的 方 格 ， 输 入 数据 是 均匀 分 布 的 。 权 值 的 初始 化 是 从 同样 的 
输入 分 布 中 取样 的 ， 半 径 的 初始 化 是 从 均匀 分 布 [0,0. 1] 中 取样 的 。 用 高 斯 函数 作为 邻 域 函 
数 ， 其 宽 为 





a(n) 一 ooexp( 200 G=) 
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这 里 nox ARAN ERR, op 记 时 间 ”一 0 时 邻 域 函数 张 开 的 范围 。 实 验 中 使 用 的 值 为 
Nmax = 2 X 108 
和 
oo = 12 

做 这 样 的 选择 是 为 了 确保 在 学 习 过 程 结 束 时 邻 域 函数 将 消失 ， 在 那 一 点 上 近似 值 为 4.5 xX 
10  “， 这 实际 上 是 0。 当 最 终 达 到 这 一 条 件 时 ， 邻 域 函数 仅仅 围绕 获胜 神经 元 。 

图 9. 15 表示 的 两 个 序列 图 示 了 核 SOM 算法 产生 的 拓扑 映射 。 注 意 到 : 

。 图 左边 列 显示 的 图 片 说 明了 核 权 值 随时 间 n 演化 的 过 程 。 

。 图 右 半 列 显示 的 图 片 说 明了 相应 的 核 宽 随时 间 n 演化 的 过 程 。 
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图 9.15 随时 间 而 演化 的 24x24 网 格 ， 时 间 值 迭代 次 数 ) 在 每 个 图 片 的 下 方 给 出 。 左 列 ， 核 权 值 的 演 
化 。 右 列 : 核 宽 的 演化 。 图 中 每 一 个 方块 描画 了 均匀 输入 分 布 的 结果 。 在 每 一 个 映射 下 给 出 的 
时 间 表示 迁 代 次 数 〔 这 个 图 的 复制 得 到 了 Dr. Mare Van Hulle 的 许可 ) 

对 于 大 致 相同 的 迭代 次 数 在 24X24 网 格 上 分 别 通 过 核 SOM 和 传统 SOM 计算 的 结果 ， 比 
较 图 9. 15 左边 列 的 拓扑 映射 的 最 终 形式 以 及 图 9. 8 的 映射 结果 ,我 们 可 以 作出 如 下 重要 的 
观察 : l 

由 核 SOM 计算 得 到 的 拓扑 映射 分 布 比 传统 SOM 计算 得 到 的 拓扑 映射 更 加 接近 于 分 配给 
输入 数据 空间 的 均匀 分 布 。 

相应 地 ， 我 们 可 以 继续 说 由 核 SOM 计算 的 放大 因子 m(x) 比 传统 SOM 的 能 更 好 地 匹配 输 
入 密度 px (x); 即 核 SOM 可 以 更 接近 于 式 (9. 27) 的 理想 条 件 。 


9.10 $% SOM MAM HZAWKAR 


我 们 发 现 讨论 核 SOM( 采 用 不 完全 gamma 分 布 核 ) AIXA (Kullback-Leibler diver- 
gence, KLD) 之 间 的 关系 可 以 提供 很 多 信息 。 将 在 下 一 章 讨论 细节 的 KLD 为 评估 对 真实 概率 
的 概率 估计 质量 提供 了 共识 。 记 真实 概率 为 px (x)， 其 估计 记 为 Bx (x)。 则 我 们 定义 这 两 个 密 
度 之 间 的 KLD 为 : 





Daia = [f awp )dx (9. 65) 


这 里 我 们 采用 了 信息 论 中 常用 的 术语 。 如 此 定义 的 KLD 总 是 非 灸 的 ， 当 且 仅 当 PBx (x) 和 zx (x) 
完全 还 配 时 其 值 为 0。 
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对 于 当前 的 讨论 ， 假 设 密度 估计 被 表达 为 具有 相等 混 频 的 高 斯 密度 函数 的 混合 ， 如 下 
所 示 : 





人 _ 1 í 1 1l 2 
bx (x| Wi,0;) T% gaz 2 || x— w, || ) (9. 66) 


这 是 以 权 值 向 量 w Mo. 51l, 2, +, LARA. RABE px(x) 是 通过 最 小 化 它 和 
密度 估计 Bx x| wis) 之 间 的 KLD 来 获得 的 。 实 际 上 ， 最 优 密度 函数 bx(x) 被 看 成 是 真实 密 
度 。 作 为 感 兴趣 问题 的 最 优化 ， 我 们 需要 对 式 (9. 66) 的 KLD 关于 可 调整 参数 w Mo: 微分 。 最 
后 ， 得 到 如 下 的 对 we 的 偏 导数 对 : 


Dat) = | pr log( px CX) )ax 


Bx (x| Wisi) 

一 | 2- Cx log px (x) 一 px W log Px (x| wi s0:))dx 

-一 | pxGo -2 Cog ĝx(x|w:»0:))dx 

= 一 awla ae oo) OW, bx (x | w; 90; ) \dx (9. 67) 
相似 地 ， 我 们 可 将 对 o 的 偏 导数 表示 为 ; 


ə OoOo 

Z Dni = J P09 (gra wd Be 
S KLD 的 这 两 个 偏 导数 为 0， 然后 通过 随机 通 近 理论 (Robbins and Monro, 1951), RANK 
得 学 习 规 则 对 (Van Hulle, 2002b) 


Px (x | w: 'a;) ) dx (9. 68) 





Aw; = Tv Pal won (1) (9. 69) 
和 
—w. || 2 
Ao; = Tw bx (X| wi sai) 。 m(ls-wlt —F | —1) (9. 70) 
对 ;1，2，…，4 Px (x|w，o;) 为 由 权 值 向 量 w 和 宽 o 表示 的 第 i 个 神经 元 的 条 件 后 验 
假设 我 们 令 条 件 后 验 密度 为 : 
Px x; | Wisa) = djs 当 了 一 1, 2，……/ (9.71) 
其 中 
Gi = Lož j _ 
0, X ji 


当 这 一 理想 条 件 得 到 满足 时 ， 神 经 元 i 是 在 神经 元 j 二 1，2，…，/ 中 竞争 的 获胜 神经 元 。 因 此 
我 们 可 以 将 条 件 后 验 密度 函数 Bx xl w ,0.) 看 成 是 扮演 着 核 SOM FRE SLA BRIDE BS 
hjuiow 。 事 实 上 ， 令 
xl WwW,0;) = Ayn (9. 72) 

FRATERNAL, BRCO. 69) 和 式 (9.70)， 它 们 和 9. 9 节 中 导出 的 核 
SOM 的 更 新 规则 对 式 (9. DARO. 64) 具 有 相似 的 数学 形式 。 

因而 我 们 可 以 给 出 如 下 结论 (Van Hulle，2002b) : 

在 高 斯 混合 模型 的 假设 下 ， 最 小 化 相对 炳 和 最 大 化 定义 为 不 完全 gamma 分 布 核 及 基于 活 
跃 度 的 邻 域 函 数 上 的 联合 炉 等 价 ， 后 者 是 核 SOM 的 核心 。 

一 结论 在 密度 估计 的 背景 中 尤其 重要 ， 此 时 给 定 一 个 数据 集 {x;} 人 六; ， 要 求 对 于 产生 这 个 
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数据 的 内 在 固有 分 布 计算 一 个 估计 。 
9. 11 小 结 和 讨论 


自 组 织 映射 

由 Kohonen(1982) 提出 的 自 组 织 映射 是 一 个 简单 但 强大 的 算法 ， 它 建立 在 一 维 或 二 维 的 
神经 元 网 格 上 ， 用 于 捕获 包含 在 输入 数据) 空间 中 感 兴趣 的 重要 特征 。 为 此 ， 它 利用 神经 元 
权 值 向 量 作为 原型 提供 一 个 输入 数据 的 结构 表示 。SOM 算法 受到 神经 生物 学 的 激发 ， 综 合 第 
8 章 中 讨论 的 所 有 自 组 织 的 基本 机 制 : 竞争 、 合 作 、 自 增强 以 及 结构 化 信息 。 因 此 它 可 以 作为 
退化 但 一 般 的 模型 ， 描 述 在 复杂 系统 中 从 完全 混乱 开始 最 终 出 现 整体 有 序 的 现象 。 换 名 话说 ， 
SOM 具有 通过 时 间 进 程 的 演化 过 程 从 无 序 中 产生 有 序 的 内 在 能 力 。 

自 组 织 映 射 也 可 以 被 看 作 向 量 量化 器 ， 从 而 提供 一 个 导出 调整 权 值 向 量 的 更 新 规则 的 原理 
性 方法 (Luttrell，1989b)。 后 一 种 方法 明确 地 强调 邻 域 函 数 作 为 概率 密度 函数 的 作用 。 

然而 应 该 强调 的 是 ， 基 于 使 用 在 式 (9. 19) 中 的 平均 分 布 Di 作为 极 小 化 代价 函数 的 后 一 
种 方法 中 ， 仅 当 特征 上 喘 射 被 很 好 地 排序 后 才 是 合理 的 。 在 Erwin 等 〈1992b) 中 ， 证 明 在 自 
适应 过 程 的 排序 阶段 ( 即 在 初始 是 高 度 混乱 的 特征 映射 的 拓扑 排序 期 间 〉 自 组 织 映 射 的 学 习 
动态 系统 不 能 用 一 个 代价 函数 的 随机 梯度 下 降 描 述 。 但 就 一 维 网 格 的 情况 来 说 ， 它 可 以 用 一 
组 代价 函数 描述 ， 对 于 网 络 中 每 个 神经 元 ， 一 个 对 应 的 代价 函数 随 随 机 梯度 下 降 独 立地 被 最 
小 化 。 
自 组 织 了 映射 的 收 伍 考虑 

关于 Kohonen 的 SOM 算法 ， 令 人 惊奇 的 是 它 的 实现 如 此 简单 ， 但 在 一 般 设 置 下 分 析 它 的 
性 质数 学 上 却 如 此 困难 。 虽 然 几 个 研究 者 使 用 相当 有 力 的 方法 来 分 析 它 ， 但 是 ， 他 们 仅 获 得 有 
限 的 应 用 性 结果 。 在 Cottre | (1997) 中 给 出 关于 SOM 算法 理论 方面 的 结果 的 综述 。 尤 其 
由 Forte and Paggs(1995，1996) 得 出 的 结果 引 人 人 注目， 结果 表明 就 一 维 网 格 情况 而 言 ， 可 严格 
证 明 : 在 自 组 织 阶段 结束 后 ，SOM 算法 “几乎 确定 ”收敛 到 一 个 唯一 状态 。 这 个 重要 的 结果 
已 被 证 明 对 一 大 类 邻 域 函 数 成 立 。 然 而 ， 在 多 维 情况 下 尚未 得 到 同样 的 结论 。 

既然 自 组 织 映射 是 由 大 脑 皮质 映射 的 思想 所 激发 的 ， 很 自然 会 问 是 否 这 种 模型 可 以 实际 解 
释 皮质 映射 的 形成 。Erwin 等 (1995) 进行 了 这 项 研究 。 他 们 发 现 自 组 织 映射 可 以 解释 猕猴 初 
级 视觉 皮质 中 计算 映射 的 形成 。 这 项 研究 的 输入 空间 的 维 数 是 5 维 ， 二 维 为 视觉 空间 接收 域 的 
位 置 ， 剩 下 的 三 维 代表 方向 优先 、 方 位 选择 和 视 党 优势 。 皮 质 表 面 被 分 成 小 块 ， 每 块 被 视 为 二 
维 网 格 的 计算 单元 〈 即 人 工 神经 元 ) 。 在 一 定 假设 下 ， 表 明 Hebb 学 习 导 致 空间 模式 的 定位 和 
视觉 优势 与 在 猕猴 中 发 现 的 非常 相似 。 
自 组 织 映射 的 应 用 

SOM 算法 的 简单 性 和 强大 的 可 视 能 力 的 组 合 促使 该 算法 在 多 个 大 规模 应 用 中 得 到 使 用 。 
典型 地 ， 算 法 在 非 监督 模式 下 训练 ， 使 用 大 量 的 训练 数据 样本 。 特 别 地 ， 如 果 数 据 包含 语 义 相 
关 目 标 群 (类)(semantically related object groupings), 属于 用 户 定 义 的 类 的 向 量子 集 被 SOM 
通过 如 下 方式 映射 : 算法 计算 的 映射 上 数据 向 量 的 分 布 提供 了 原始 数据 空间 固有 分 布 的 二 维 离 
散 通 近 。 基 于 这 一 思想 ， 在 Laaksonen 等 (2004) 和 Laaksonen and Viitaniemi (2007) 中 ， 
SOM 被 成 功用 于 检测 和 描述 语义 目标 和 目标 类 之 间 的 存在 关系 (ontological relations), WX 
目标 在 一 个 包含 2618 个 图 像 的 视觉 数据 库 中 ， 每 个 图 像 属于 一 个 或 多 个 预定 义 的 语义 类 。 在 
这 个 研究 中 使 用 的 存在 关系 包括 如 下 几 点 : 

。 在 一 个 图 像 中 同时 存在 从 两 个 或 更 多 目标 类 而 来 的 目标 。 
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。 视觉 相似 性 的 分 类 。 

。 在 一 个 图 像 中 不 同 目标 类 型 的 空间 关系 。 

在 另 一 个 不 同 的 应 用 中 ，Honkela (1995) 利用 SOM 算法 来 研究 自然 语言 单词 的 语义 
规则 ， 这 里 规则 是 在 它们 发 生 的 上 下 文 关系 中 反映 的 。 这 一 研究 的 目的 是 对 这 些 规则 的 确切 形 
象 计算 上 下 文 映射 。 在 这 一 研究 完成 的 实验 中 ， 源 数据 库 由 Brothers Grimm 的 童话 故事 的 英 
语 翻译 组 成 ， 对 于 单词 没有 任何 先 验 句法 或 语义 分 类 ; 单词 数 总 共 大 约 250 000， 词 汇 的 大 小 
超过 7000 个 单词 。SOM 算法 能 够 建立 上 下 文 映射 并 且 看 起 来 很 好 地 遵守 传统 的 语义 分 类 以 及 
关于 单词 语义 的 人 类 直觉 。 关 于 文本 内 容 的 分 析 被 扩展 到 收集 上 百 万 的 文档 ; 在 这 一 类 应 用 
中 ， 网 格 的 神经 元 个 数 可 以 达到 上 百 万 ， 输 入 数据 空间 的 维 数 也 可 能 达到 上 千 维 (Honkela, 
2007)。 这 一 类 大 规模 的 应 用 使 得 自 组 织 映 射 成 为 强 有 力 的 工具 。 

核 SOM 

在 本 章 的 后 面部 分 ， 我们 描述 了 Van Hulle(2002b) 的 核 SOM 算法 ， 这 一 算法 的 主要 目的 
是 提供 改进 的 拓扑 映射 和 逼近 分 布 能 力 。 核 SOM 的 一 个 出 众 的 特征 是 其 推导 是 从 构造 一 个 炉 
目标 函数 开始 的 。 更 重要 的 是 ， 核 SOM 是 在 线 的 基于 随机 梯度 的 算法 。 

比较 本 章 中 学 习 的 两 个 自 组 织 映 射 ， 我 们 可 以 说 对 于 神经 元 网 格 中 的 权 值 向 量 标准 SOM 
和 核 SOM 具有 相似 的 更 新 规则 。 而 且 ， 他 们 在 同一 方向 上 对 权 值 更 新 ， 但 采用 不 同 的 学 习 率 
参数 。 和 标准 SOM 不 同 ， 核 SOM 具有 对 网 格 中 每 个 神经 元 i 自动 调整 核 宽 ww 的 内 在 能 力 ， 
从 而 最 大 化 核 〈 神 经 元 ) HT SR 

然而 ， 核 SOM 需要 对 两 个 学 习 率 参数 qe 和 进行 仔细 的 调整 以 保证 权 值 和 宽 的 更 新 不 
发 生 爆 炸 性 的 增长 。 如 果 当 核 宽 的 方差 of MELEE BBR yj Aly, 大 时 就 会 发 生 爆 炸 性 增 
长 。 这 一 不 希望 的 行为 是 由 于 这 样 的 事实 : 在 式 (9. 56) 和 式 (9.59) 的 更 新 式 中 ， 学 习 率 参数 
ge Fil, 分 别 被 o? Allo; 除 。 为 了 避免 w 和 vi 的 爆炸 性 增长 的 可 能 性 ， 我 们 可 以 将 用 和 ot 十 a 
来 代替 ， 这 里 = 是 预先 给 定 的 小 常数 。 


注释 和 参考 文献 


. 存在 其 他 类 型 的 没有 胜利 者 的 竞争 学 习 ， 如 在 Heskes(2001) 和 Van Hulle(2005) 中 讨论 的 那样 。 

2. 图 9. 1 的 两 个 特征 映射 模型 是 由 von der Malsburg(1973) 的 自 组 织 的 先驱 性 研究 所 激发 ，Malsburg 注意 到 
视觉 皮质 的 模型 不 能 整体 地 被 基因 预先 确定 ;相反 涉及 突 触 学 习 的 自 组 织 过 程 可 能 导致 特征 敏感 的 皮质 细 
胞 的 局 部 排序 ， 但 是 在 von der Malsburg 的 模型 中 不 能 取得 全 局 拓扑 序 ， 因 为 模型 使 用 固定 的 〈 很 小 的 ) 
邻 域 ，von der Malsburg 的 计算 机 仿真 也 许 是 第 一 次 展示 自 组 织 。 

3. Amari(1980) 在 某 种 程度 上 放松 对 后 突 触 神经 元 的 突 触 权 值 的 限制 。Amari 给 出 的 数学 分 析 阑 明了 由 自 组 
织 形 成 的 皮质 映射 的 动态 稳定 性 。 

4. Grossberg(1969) 在 神经 网 络 文献 中 第 一 次 引入 式 (9. 3) 描 述 的 竞争 学 习 规 则 。 

5. 在 Kohonen(1982) 导出 的 SOM 算法 的 原始 形式 中 ， 拓 扑 邻 域 假 定 为 有 固定 的 范围 。 令 dgu RREK 
数 内 获胜 神经 元 i 和 兴奋 神经 元 7 的 侧 向 距离 。 一 维 网 格 情形 的 拓扑 邻 域 定义 为 : 

l, -K<d;,,<K 

0， 否则 
其 中 2K 为 兴奋 神经 元 一 维 邻 域 的 总 长 度 。 与 神经 生物 学 考虑 相反 ， 式 〈A) 描述 的 模型 意味 着 在 拓扑 邻 域 
内 所 有 神经 元 以 相同 的 速度 点 火 ， 且 这 些 神经 元 内 部 的 相互 作用 与 它们 到 获胜 神经 元 i 的 侧 向 距离 无 关 。 

6. Erwin 等 (1992b) 表明 当 SOM 算法 利用 非 凸 的 邻 域 函 数 时 会 出 现 亚 稳定 状态 ， 它 表示 在 特征 映射 设置 中 的 
拓扑 缺陷 。 一 个 宽 的 西 邻 域 函数 ， 如 宽 高 斯 函数 ， 形 成 拓扑 排序 的 时 间 比 非 凸 邻 域 函数 所 花 的 时 间 短 ， 这 
是 因为 没有 亚 稳 定 状态 。 

7. 在 第 5 章 的 注释 中 指出 在 通信 和 信息 论 的 文献 中 ， 提 出 了 著名 的 标量 量化 的 早期 方法 ， 即 Lloyd 算法 。 这 

个 算法 首先 由 Lloyd 在 Bell 实验 室 1957 年 未 发 表 的 报告 由 描述 (Lloyd, 1957), 很 久 以 后 才 发 表 (Lloyd. 


= 
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1982), Lloyd 算法 有 时 也 称 为 “最 大 量化 器 ”。 用 于 向 量 量 化 的 广义 Lloyd 算法 (generalized Lloyd algo 
rithm, GLA) 是 Lloyd 算法 的 直接 推广 。 广义 Lloyd 算法 在 McQueen(1967) 将 其 作为 如 第 5 章 讨论 的 统 
计 聚 类 的 工具 之 后 有 时 称 为 二 均值 算法 。 在 前 面 的 这 一 章 中 我 们 确实 指出 二 均值 算法 以 和 期 望 最 大 (EM) 
算法 相似 的 方式 进行 ， 这 两 者 之 间 基 本 的 区 别 是 二 均值 算法 的 目标 函数 (和 GLA 相似 ) 被 最 小 化 ， 而 EM 
算法 的 且 标 函数 被 最 大 化 。EM 算法 在 第 11 章 中 讨论 。Lioyd 算法 及 广义 Lloyd 算法 的 历史 评述 可 参看 
Gersho and Gray(1992) 。 

8. Kohonen(1993) 给 出 的 实验 结果 表明 ，SOM 算法 的 批量 方式 比 它 的 在 线 方式 快 。 但 是 使 用 批量 方式 时 
SOM 算法 失去 自 适 应 能 力 。 

9. 自 组 织 映 射 的 拓扑 性 质 可 由 不 同方 法 定量 评价 。 一 种 这 样 的 定量 度量 称 为 地 形 图 产品 (topographic prod- 
uct)， 它 在 Bauer and Pawelzik(1992〉 中 描述 ， 它 可 用 于 比较 属于 不 同 维 数 的 不 同 特征 映射 的 真实 行为 。 但 
是 只 有 当 网 格 维 数 和 输入 空间 维 数 匹配 时 这 种 度量 才 是 可 量化 的 。 

10. SOM 算法 无 能 力 提 供 输入 数据 的 固有 分 布 的 可 信 表 示 ， 这 一 点 促使 对 算法 的 修正 和 能 真实 表示 输入 的 新 

自 组 织 算法 的 发 展 。 

在 文献 中 有 两 类 SOM 算法 修正 的 报道 。 

Ci) 修改 竟 争 过 程 。DeSieno(1988) 在 网 格 中 用 记忆 形式 跟踪 单个 神经 元 的 累计 激活 量 。 具 体 地 ， 添 
加 “和 良心” 机制 影响 SOM 算法 的 竞争 过 程 。 这 样 做 使 得 每 个 神经 元 不 管 它 在 网 格 中 的 位 置 如 何 都 
有 机 会 以 接近 于 理想 值 1/! 的 概率 获胜 ， 其 中 /为 总 的 神经 元 数 。 习 题 9. 7 给 出 具有 良心 机 制 的 
SOM 算法 的 描述 。 

(i) 修改 自 适应 过 程 。 在 这 第 二 种 方法 中 ， 对 用 于 调整 邻 域 函数 内 每 个 神经 元 权 值 向 量 的 更 新 规则 进行 
修改 ， 以 控制 特征 映射 的 放大 性 质 。 在 Bauer 等 (1996) 中 ， 表 明 通 过 对 更 新 规则 添加 可 调 步 长 参 
数 ， 可 以 为 特征 映射 提供 输入 数据 的 可 信和 表示 。Lin 等 〈1997) 遵循 相似 的 途径 引入 SOM 算法 的 两 
种 修改 : 
。 修改 更 新 规则 ， 抽 取 输 入 向 量 = 和 问题 中 神经 元 5 的 权 值 向 量 w 的 直接 依赖 性 。 
。 利用 为 可 分 输入 分 布 特别 设计 的 等 变化 Cequivariant) 前 分 替代 Voronoi Ha. 
这 第 二 种 修改 使 得 SOM 算法 能 进行 盲 源 分 离 。( 言 源 分 离 在 第 10 章 详细 讨论 .) 
这 里 所 提 到 的 修改 建立 在 标准 SOM 算法 的 各 种 形式 上 。Linsker(1989b) 采用 一 种 完全 不 同 的 方法 。 
具体 地 ， 利 用 最 大 化 输出 信号 和 带 加 性 噪声 的 输入 信号 之 间 的 互信 息 的 方 当 ， 导 出 用 于 地 形 图 映射 
形成 的 全 局 学 习 规 则 ( 植 根 于 香农 信息 论 的 互信 息 的 定义 在 第 10 章 讨 论 ) 。Linsker 的 模型 产生 与 输 
人 分 布 精确 匹配 的 神经 元 分 布 。 利 用 信息 论 的 方法 以 自 组 织 方 式 处 理 地 形 图 映射 形成 也 在 Van Hulle 
(1996, 1997) 中 有 所 讨论 。 

11. 在 Van Hulle(2002) 中 对 式 (9. 52) 右 端 第 二 项 的 忽视 是 基于 下 面 的 讨论 : 
。 对 高 斯 分 布 输入 向 量 x 所 获得 的 期 望 值 ix 一 w; i ERO. 53) 中 定义 。 
。 在 六 维 放射 状 对 称 的 高 斯 分 布 中 ， 分 布 可 以 通过 取 m 个 样本 来 建立 ,每 个 样本 对 应 于 一 个 输入 维 数 。 
则 在 具有 相同 半径 的 一 维 高 斯 分 布 中 ， 当 权 值 更 新 量 Aw; 小 〈 这 假定 了 使 用 小 的 学 习 率 参数 w) A 
新 是 对 每 个 输入 维 数 分 别 〈 即 以 随机 顺序 ) 更 新 时 ， 可 以 忽略 式 (9. 52) 的 第 二 项 。 
习题 
SOM 算法 
9.1 BM g(y) 表 示 响 应 y; 的 非 线性 函数 ， 它 如 同 在 式 (9. 9) 中 那样 用 于 SOM 算法 。 如 果 gw) 的 Taylor 展 
开 的 常数 项 不 为 零 ， 讨 论 这 会 产生 什么 结果 ? 

9.2 假设 xCv) 为 图 9.6 模型 的 噪声 v 的 光滑 函数 ， 利 用 式 (9. 19) 的 失真 度量 的 Taylor 展开 ， 确 定 噪 声 模型 
r(y) 导 致 的 曲率 项 。 

9.3 有 时 说 SOM 算法 保持 输入 空间 中 存在 的 拓扑 关系 。 严 格 地 说 ， 这 种 性 质 只 有 输入 空间 的 维 数 与 神经 元 
网 格 的 维 数 相等 或 再 低 时 才能 保证 。 讨 论 这 个 陈述 的 正确 性 。 

9.4 一 般 说 基于 竞争 学 习 的 SOM 算法 对 硬件 故障 不 具有 容错 性 ， 但 是 算法 对 输入 的 小 的 扰动 引起 输出 从 获 
胜 神经 元 跳 到 相 邻 的 神经 元 具有 容错 性 。 讨 论 这 两 个 陈述 的 含义 。 

9.5 考虑 由 式 (9. 23) 表 示 的 SOM 算法 的 离散 形式 所 获得 的 批量 方式 ， 表 示 为 : 
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> 
w=- j= 1,2, 


kd 
> ER 





学 习 向 量 量化 


9.6 第 8 章 讨 论 的 最 大 特征 滤波 器 和 自 组织 特 征 映射 的 更 新 规则 都 利用 Hebb 学 习 假 设 的 修正 。 比 较 这 两 个 
修正 ， 说 明 它们 的 异同 点 。 
良心 算法 是 SOM 算法 的 修正 ， 它 迫使 密度 匹配 是 精确 的 匹配 (DeSieno，1988)。 在 表 P9. 7 所 总 结 的 良 
心算 法 中 ， 每 个 神经 元 保存 它 竞争 获胜 的 次 数 〔 如 它 的 突 触 权 值 向 量 在 欧 几 里 得 距离 下 成 为 距离 输入 向 
量 最 近 的 神经 元 的 次 数 ) 。 这 里 使 用 的 概念 ， 就 是 如 果 一 个 神经 元 获胜 太 频 繁 ， 它 “感到 有 罪 ” 从 而 退 
出 竞争 。 
为 了 研究 利用 良心 算法 在 密度 匹配 上 产生 的 改善 ， 考虑 利用 图 P9. 7 画 出 的 线性 输入 密度 训练 由 20 个 神 
经 元 组 成 的 一 维 网 格 ( 即 线性 排列 )。 
(a) 利用 计算 机 仿真 比较 由 良心 算法 和 SOM 算法 产生 的 密度 匹配 ， 对 SOM 算法 使 用 y= 0. 05 而 良心 算 


9.7 


法 使 用 B=0. 0001, C=1.0 和 y=0.05。 


(b) 作为 这 个 比较 的 参考 框架 ， 包 括 输入 密度 的 “精确 ”匹配 。 


讨论 你 的 计算 机 仿真 结果 。 
表 P9.7 良心 算法 小 结 
1. 寻找 和 输入 向 量 x 最 近 的 突 触 权 信和 向量 wi: 


| x— w; || =min | x—w ||. j=1, 2, 1, N 
J 


2. 保持 一 轮 神经 元 7 竞争 获胜 的 总 时 间 部 分 pj: 
pie" = py + Bly, — po) 

其 中 B 是 小 的 正 数 ， 且 

一 位 io RHA | 是 获胜 神经 元 

%7 lo 否则 

在 算法 开始 时 ，p; 初始 化 为 零 
3. 利用 良心 机 制 

| x—wil = min( Il x—w; |] —6) 


寻找 新 的 获胜 神经 元 ， 其 中 b 是 为 了 修改 竞争 而 引入 的 偏 置 项 ; 它 定 义 为 


5 
其 中 C 为 偏 置 因子 而 N 为 网 络 中 神经 元 的 总 数 。 
4, 更 新 获胜 神经 元 的 突 触 权 值 向 车， 


wrew = weld + gix — weld) 


其 中 7 为 通常 在 SOM 算法 中 使 用 的 学 习 率 参数 。 


2.0r 








图 P9.7 习题 9.7 的 图 图 P9. 11 





0 
习题 9. 11 的 图 


证 明 SOM 算法 的 这 种 形式 可 以 表示 成 和 Nadaraya- Watson 回归 估计 器 相似 的 形式 (Cherkassky and Mu- 
lier，1995)， 估 计 器 在 第 5 章 已 经 讨论 过 。 
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核 SOM 
9.8 利用 作用 于 式 (9. 37) 的 式 (9. 40) 的 变换 公式 ， 推 导 式 (9. 41) 的 概率 密度 函数 。 
9.9 这 一 习题 包括 两 部 分 ， 用 于 解决 推导 属于 核 SOM 算法 的 多 个 等 式 的 问题 ; 


(a) 随机 变量 站 的 不 完全 gamma PH RÉA X) 由 下 式 定 义 〈Abramowitz and Stegun，1965， 
p. 260) : 


Px(z|a) = wis] e t) dt 
这 里 PCa) FE gamma 函数 。 相 应 地 定义 不 完全 gamma 分 布 的 补 为 ， 
rd,x) = for exp(— idt 


利用 这 两 个 公式 推导 式 (9.43) 定 义 的 随机 变量 R 的 累积 分 布 函 数 。 

(b) 利用 不 完全 gamma 分 布 作 为 平均 神经 元 输出 Dy, 的 定义 ， 对 偏 导数 95Cr)/Br 推导 式 (9. 51)。 

9.10 Xt SOM 算法 的 权 值 向 量 开发 式 (9. 55) 的 近似 更 新 公式 时 ， 我 们 证 明了 对 式 (9.52) 的 第 二 项 的 忽略 。 
然而 ， 对 于 核 宽 o EFRO 58) 的 更 新 公式 时 没有 做 任何 近似 。 验 证 后 一 个 选择 。 

计算 机 实验 

911 在 这 个 试验 中 我 们 用 计算 机 仿真 研究 SOM 算法 应 用 于 具有 二 维 输入 的 一 维 网 格 。 网 格 由 65 个 神经 元 
组 成 。 输 入 由 图 P9.11 所 示 的 三 角形 内 均匀 分 布 的 随机 点 构成 。 计 算 由 SOM 算法 在 0,20,100,1000， 
10 000 和 25 000 次 和 迭代 后 产生 的 映射 。 

9.12 ”考虑 一 个 用 三 维 输入 分 布 训练 的 二 维 神经 元 网 格 ， 网 格 由 10X 10 神经 元 构成 。 
(a) 在 由 下 式 定义 的 小 区 域内 输入 是 均匀 分 布 的 。 

{Oma 1), 0< ar: <1), 0 < r <0.2)} 
利用 SOM 算法 计算 输入 空间 在 50，1 000 和 10 000 次 算法 迭代 后 的 二 维 投影 。 
Cb) 当 输 入 在 如 下 定义 的 一 个 更 大 的 区 域内 均匀 分 布 时 重复 你 的 计算 。 
{Oman <1), (0 < az: <1), 0< z: <0. 4)} 
O 当 输 入 在 如 下 定义 的 立方 体内 均匀 分 布 时 再 一 次 重复 你 的 计算 。 
{Oma <1), 0< ar: <1) (0< zr <1} 

讨论 你 的 计算 机 仿真 结果 的 含义 。 

9.13 在 SOM 算法 应 用 中 经 常 出 现 的 问题 是 不 能 形成 拓扑 排序 而 产生 “折合 ”映射 。 当 允许 邻 域 体积 
衰减 太 快 时 就 会 发 生 这 个 问题 。 折 辣 映 射 的 产生 可 以 看 作 拓 扑 排 序 过 程 形成 某 种 形式 的 “局 
部 最 小 ”。 
为 了 研究 这 个 现象 ， 考 虑 一 个 10X20 神经 元 的 二 维 网 格 ， 用 在 正方 形 {( 一 1 < 之 zz <1), C1 <r < 
+1) 内 均匀 分 布 的 二 维 输入 训练 。 计 算 由 SOM 算法 产生 的 映射 ， 允 许 获胜 神经 元 周围 的 邻 域 函数 比 
正常 使 用 的 衰减 快 得 多 。 你 可 能 需要 重复 几 次 试验 才能 看 到 排序 过 程 的 失败 。 

9.14 SOM 算法 的 拓扑 排序 性 质 可 以 用 于 形成 高 维 输入 空间 的 一 种 抽象 的 二 维 表示 形式 。 为 了 研究 这 种 表示 
形式 ， 考 虑 由 10X10 神经 元 组 成 的 二 维 网 格 ， 它 的 训练 输入 空间 由 8 维 空间 的 4 个 高 斯 云 思 1， 思 12， 
E13 和 名 14 构成 。 所 有 云 具 有 单位 方差 但 其 中 心 不 同 。 它 们 的 中 心 位 置 分 别 为 (0,0,0,…,0), (4,0， 
O, 40) ; (4,4;0,… 50) 和 (0,4,0,…，,0) 。 计 算 由 SOM 算法 产生 的 映射 ， 在 映射 中 每 个 神经 元 的 类 别 
和 在 该 神经 元 周围 输入 点 中 具有 最 多 输入 点 的 类 别 相同 。 

9.15 Æ P9.15 给 出 重 正 规 化 SOM 算法 的 小 结 ; 在 第 9. 3 节 给 出 了 算法 的 简要 描述 。 比 较 常 规 的 和 重 正规 化 
的 SOM 算法 ， 注 意 以 下 两 个 问题 : 
1. 算法 实现 所 涉及 的 编码 复杂 性 。 
2. 训练 花费 的 计算 机 时 间 。 
利用 从 一 个 正方 形 内 的 均匀 分 布 中 抽取 的 数据 ， 且 按照 下 列 两 个 网 络 配置 来 说 明 这 两 种 算法 的 比较 ; 
(a) 257 个 神经 元 的 一 维 网 格 。 
b) 2 094 个 神经 元 的 一 维 网 格 。 
在 这 两 种 情形 都 以 2 个 编码 向 量 开始 。 
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表 P9. 15 重 正规 化 训练 算法 小 结 (一 维 形 式 ) 


1. 初始 化 。 署 编码 向 量 的 数目 为 一 小 整数 〈 例 如 ， 为 简单 起 见 使 用 2 或 对 所 求 问题 更 具 代 表 性 的 其 他 数目 ) 。 
从 训练 集中 随机 选择 相应 数目 的 训练 向 量 初始 化 它们 的 位 置 。 

2. 选择 一 个 输入 向 量 。 从 训练 集中 随机 选择 一 个 输入 向 量 。 

3. 输入 向 量 编码 。 确 定 获 胜 编码 向 量 〈 即 获胜 神经 元 的 突 触 权 值 向 量 );。 为 了 做 到 这 一 点 ,在 需要 时 使 用 “最 


近邻 ”或 “最 小 失真 ”编码 方法 。 
4. 码 书 更 新 。 执 行 通常 的 “获胜 者 和 它 的 拓扑 邻 域 ”更 新 。 你 会 发 现 保持 学 习 率 参数 7 国定 〈 如 0. 125) 就 是 


够 了 。 例 如 更 新 获胜 神经 元 使 用 7 而 它 的 最 近邻 使 用 7/2。 

5. 码 书 分 裂 。 继 续 码 书 更 新 (第 4 步 );， 每 次 使 用 随机 训练 集中 挑选 的 新 输入 向 量 直 到 码 书 更 新 的 次 数 是 码 字 
向 基数 目的 10~30 倍 。 这 时 码 书 大 概 已 经 稳定 ， 应 该 进行 码 书 分 裂 。 为 做 到 这 一 点 你 既 可 以 采用 你 所 有 的 码 字 向 
dt) Peano 溃 ， 且 对 它们 的 位 置 进 行 播 值 以 产生 对 Peano 串 的 更 小 粒度 的 还 近 ; 也 可 以 简单 向 每 两 个 已 有 的 码 字 


向 量 连 线 深 加 另外 码 字 向 量 。 
6. 训练 完成 。 继 续 进 行 码 书 更 新 和 码 书 分 裂 直 到 码 字 向 重 总 数 达到 某 一 预定 值 (如 100) ， 这 时 整个 训练 结束 。 


@@ 码 书 分 裂 近 似 在 每 一 回合 时 加 倍 码 字 向 量 的 数目 ， 所 以 达到 任何 预定 的 码 字 数目 无 需 花费 许多 的 回合 。 


考虑 图 P9. 16 所 示 的 信号 空间 图 对 应 的 M 行 脉冲 幅度 调制 (Mr-level pulse-amplitude modulation, 
PAM), ，M=8。 信 号 点 对 应 于 Gray 编码 数据 块 。 每 个 信号 点 由 具有 合适 幅度 尺度 的 矩形 冲击 信号 


表示 : 








ptt) tgit2, 43,24 o<t<T 
其 中 工 为 信号 区 间 。 在 接收 器 输入 端 ， 对 具有 变化 的 信 品 比 (signal-to-noise ratio, SNR) 的 传输 信号 
添加 零 均 值 的 高 斯 噪声 。SNR 定义 为 传输 信号 能 量 平均 和 噪声 能 量 平均 的 比值 。 
(a) 利用 随机 二 值 序列 作为 发 送 器 和 输入， 产生 表示 SNR 一 10，20，30 分 册 的 接收 信号 数据 。 
(b) 对 这 些 SNR， 建 立 自 组 织 特征 上 映射。 你 可 使 用 的 典型 值 为 : 
。 对 接受 信号 以 8 倍 信号 率 采 样 获 得 的 8 个 元 素 构 成 输入 向 量 ( 即 每 个 信号 区 间 8 个 样本 )。 假 
设 不 知道 时 间 信 息 。 
。 64 个 神经 元 的 一 维 网 格 ( 即 输入 向 量 大 小 的 8 倍 )。 
(c) 对 三 个 SNR 显示 特征 映射 ， 由 此 表示 SOM 算法 的 拓扑 排序 性 质 。 
码 字 000 001 oll 010 110 111 


4 4 4 l4 
脉冲 幅度 。 +— — 
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Nie 
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本 章 组 织 

本 章 的 主题 是 学 习 以 一 种 或 多 种 根植 于 信息 论 的 方式 构成 非 监督 学 习 模 型 。 
本 章 的 组 织 如 下 : 

10. 1 节 介绍 信息 论 的 引导 素材 以 及 其 对 于 神经 元 处 理 的 深刻 影响 。 

10. 2 到 10.6 节 回 顾 香 农 信息 论 的 基本 概念 。 从 10.2 节 的 灶 的 概念 开始 ， 接 着 在 10.3 节 中 介 
ARAME. 10.4 节 讨论 在 连续 随机 变量 对 之 间 的 互信 息 概念 并 检测 其 关联 性 。 相 对 炉 的 相关 概 
念 提供 了 对 于 一 对 不 同 的 概率 密度 函数 之 间 相 匹 配 的 程度 的 度量 ， 这 在 10.5 节 中 讨论 。10. 6 节 通 过 
描述 系 词 来 完成 整个 回顾 ， 已 经 发 现 了 几 十 年 的 系 词 是 一 个 有 用 的 概念 但 很 大 程度 上 被 忽视 了 。 

10.7 节 讨 论 作为 非 监 督学 习 目 标 函 数 的 互信 息 规则 ， 从 而 为 讨论 下 面 的 五 个 原则 及 其 应 
用 铺垫 ， 这 在 10.8 节 到 10. 12 HMR: 

。 最 大 互信 息 (Infomax) 原则 

。 最 小 元 余 原 则 

。 处 理 空 间 相 于 特征 的 Imax 原则 

。 处 理 空间 不 相干 特征 的 Imin 原则 

。 独立 分 量 分 析 (ICA) 原则 

10. 13 节 讨 论 稀世 问 题 ， 这 是 自然 图 像 的 内 在 特点 ; 这 一 节 也 通过 描述 其 和 稀 丽 的 关系 为 
ICA 提供 了 动机 。 

10. 14 节 到 10. 17 节 描 述 不 同 的 ICA 算法 ， 强 调 其 实际 优点 和 局 限 性 : 

。 自然 梯度 学 习 算 法 

。 最 大 似 然 估计 

。 最 大 炳 学 习 算 法 

。 通过 最 大 化 所 熟知 的 负 精 非 高 斯 准则 的 FastICA 

10. 18 节 讨 论 称 为 相关 ICA 的 新 概念 ， 这 是 建立 在 对 系 词 的 运用 之 上 的 。 

10.19 节 介 绍 另 一 个 新 的 且 吸 引 人 的 方法 叫做 信息 瓶颈 IB) 方法 ， 这 是 建立 在 香农 信息 
论 的 另 一 个 概念 之 上 的 : 速率 失真 理论 。IB 方法 为 数据 的 最 优 流 形 表达 的 讲述 铺 平 了 道路 ， 
这 将 在 10. 20 节 讨 论 ， 紧 接着 在 10. 21 节 给 出 一 个 计算 机 实验 。 

本 章 通过 10. 22 节 的 总 结 和 结论 来 结束 。 


10.1 引言 


香农 在 1948 年 发 表 的 经 典 论文 中 ， 为 信息 论 奠 定 了 基础 。 香 农 在 信息 论 方面 的 开创 性 工作 . 
和 其 他 的 研究 工作 者 对 它 的 补充 ， 是 对 电子 工程 师 设计 高 效 可 靠 通信 系统 的 需求 的 直接 回应 。 无 
论 它 的 实际 起 源 是 什么 ， 如 我 们 今天 所 知道 的 信息 论 正 是 关于 通信 过 程 本 质 的 深刻 数学 理论 。 这 
个 理论 提供 一 个 对 根本 问题 研究 的 总 体 框 架 ， 例 如 ， 信 息 表示 的 效率 以 及 通信 信道 可 靠 信 息 传输 
的 极限 问题 。 而 且 该 理论 包括 很 多 有 力 的 定理 用 以 计算 最 佳 表示 和 信和 号 所 携带 信息 的 传输 的 理想 
界限 。 这 些 界限 非常 重要 ， 因 为 它们 为 提高 信息 处 理 系统 的 设计 提供 了 标准 。 

本 章 的 主要 目的 是 讨论 以 一 种 原则 性 方式 导致 自 组 织 的 信息 论 模型 。 在 这 个 背景 下 ， 特 别 
值得 注意 的 模型 是 由 Linsker(1988a, b) 提出 的 最 大 互信 息 原则 《maximum mutual informa- 
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tion principle) 。 该 原则 表明 : 

多 层 神经 网 络 的 突 触 连接 以 这 样 一 种 方式 进行 在 网 络 的 每 个 处 理 阶 段 ， 当 进行 信号 变换 
时 ， 为 保留 的 信息 量 达 到 最 大 ， 要 遵从 一 定 的 约束 条 件 。 

利用 信息 论 来 解释 人 们 的 感知 过 程 并 不 是 什么 新 的 想法 。 例 如 ， 在 Attneave(1954) 的 一 
篇 早期 论文 中 提出 了 关于 感知 系统 的 信息 论 作 用 : 

感知 机 制 的 一 个 主要 功能 是 减少 刺激 的 宛 余 ， 以 一 种 比 它 冲击 接收 器 的 形式 更 经 济 的 方式 
对 信息 进行 描述 或 编码 。 

在 Attneave 的 论文 背后 的 主要 思想 在 于 认识 到 为 减少 元 余 对 场景 数据 编码 和 确认 场景 中 
特定 特征 是 相关 的 。 这 种 重要 认识 和 在 Craik(1943) 描述 的 关于 人 脑 的 观点 相关 ， 在 该 论文 中 
构造 了 一 个 外 部 世界 的 模型 以 便 结 合 现实 的 规则 和 约束 。 


10.2 $ 


对 于 一 个 随机 变量 X， 它 的 每 一 个 实现 〈 出 现 ) 可 看 作 一 个 消息 。 严 格 地 说 ， 如 果 随 机 变 
量 X 的 幅度 值 是 连续 的 ， 则 它 带 有 无 穷 的 信息 。 但 是 ， 从 物理 和 生物 的 角度 来 看 ， 我 们 认识 
到 讨论 具有 无 限 精度 的 幅度 度量 的 信息 是 没有 意义 的 ， 这 就 是 说 可 以 把 X 的 值 一 致 量化 到 有 
限 的 离散 水 平 。 这 样 我 们 可 以 把 和 看 成 是 离散 的 随机 变量 ， 其 模型 为 
X = (ralk =O, t1,°,+K} (10. 1) 
其 中 z 是 一 个 离散 的 数值 旦 〈2 开 十 1) 是 总 的 离散 水 平 。 假 设 离散 水 平 之 间 的 间隔 9. 非常 小 ， 
能 够 以 足够 的 精度 来 描述 我 们 感 兴趣 的 变量 。 当 然 我 们 能 够 接近 连续 的 极限 ， 只 要 86- 一 0 H K 
趋 于 无 穷 ， 在 这 种 情况 下 就 得 到 连续 变量 而 且 求 和 变 成 积分 。 
为 完善 模型 ， 让 事件 X 王 zx 以 概率 
pe = P(X = x,) (10. 2) 





发 生 ， 其 中 要 求 
0 过 pl 和 j=l (10. 3) 


k=—K 


假如 事件 X=2, 发 生 的 概率 加 一 1， 因 此 要 求 对 所 有 4k 且 有 zp; 一 0。 在 这 种 情况 下 ， 如 有 果 事 
件 关 =zx; 发 生 就 没有 什么 “惊奇 ”的 了 ， 并 且 不 传达 任何 “信息 ”， 因 为 我 们 知道 消息 必须 是 
什么 。 在 另 一 种 情况 下 ， 如 果 各 种 离散 水 平 发 生 的 概率 不 同 ， 概 率 ps 特别 小 ， 那 么 当 X 取 值 
a, 而 不 是 具有 更 高 概率 p 的 离散 水 平 zx; (i 尖 刀 时 ， 这 就 有 更 大 的 “惊奇 ”和 有 “信息 ”了 。 
因此 “不 确定 ”"、“ 惊 奇 ” 和 “信息 ”是 相关 的 。 在 X= 关 发生 之 前 ， 有 一 定 的 不 确定 性 。 在 
XX 二 xz; 发 生 之 后 ， 有 一 定 惊奇 。 在 XX 二 zx; 发 生 之 后 ， 信 息 量 增加 了 。 这 里 的 三 个 量 很 显然 是 
一 样 的 ， 而 且 信 息 量 与 事件 发 生 的 概率 成 反比 。 
我 们 定义 观察 到 具有 概率 pi WEE X =x 后 所 获得 的 信息 增益 量 为 对 数 函 数 


Ilr) = log (5-) =— log Pe (10. 4) 


其 中 对 数 函数 的 底 是 任意 的 。 当 以 自然 对 数 为 底 时 ,信息 的 单位 是 泰 特 (nat)， 当 以 2 WK 
时 ， 单 位 是 比特 (bit)。 在 任何 情况 下 以 式 (10.4) 定 义 的 信息 量 都 有 以 下 的 性 质 : 


1. Ka) =0, 4p=l (10. 5) 
显然 ， 如 果 我 们 绝对 肯定 将 发 生 的 事件 ， 则 当 其 发 生 时 就 没有 获得 信息 。 
2. Kz) 之 0， “Op, <1 (10. 6) 


也 就 是 说 ， 当 事件 Xx, 发 生 时 ， 或 提供 一 些 信息 或 不 提供 信息 ,但 不 会 导致 信息 损失 。 
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3. I Cr) >I), B plp (10. 7) 
也 就 是 说 ， 小 概率 事件 发 生 时 携带 的 信息 量 比 大 概率 事件 发 生 时 携带 的 信息 量 多 。 

信息 量 T(zxi) 也 是 一 个 具有 概率 p HERMES. Me Ee 2K 十 1 个 离散 数值 上 的 
平均 值 定义 为 : 


K K 
H(X) =E] = Dpil(r) =— X plog pı (10. 8) 


tt HCX) AARNA A XS Se Ah 10. 8) wh 
We MSR AACE AER AO. RH CX) RRA THR RHR RH EBS. 
注意 在 HOO X AE AOOWEE, METALS ric. ARNERI. 8) 中 我 们 取 
0 log 0 为 0。 
Wi HX RIRE F : 
o< H(X) < log(2K +1) (10. 9) 
其 中 (2K 十 1) 是 总 的 离散 水 平 的 数目 。 进 一 步 ， 我 们 做 如 下 说 明 : 
1. BCX) 一 0 当 且 仅 当 对 于 某 一 个 上 概率 pi 二 1 时 ， 而 集合 中 其 他 的 概率 为 0; MT 
下 界 不 对 应 不 确定 性 。 
2. 日 (X) 二 log(2K 十 1) 当 生 仅 当 对 所 有 的 &，pi 二 1/(2K 十 1)( 即 所 有 的 离散 值 的 概率 相 
等 ); 这 个 上 界 对 应 最 大 不 确定 性 。 
连续 随机 变量 的 微分 炳 
信息 论 概念 的 讨论 现在 只 涉及 它们 的 幅度 离散 的 随机 变量 总 体 。 现 在 我 们 将 这 些 概念 中 的 
一 些 扩展 到 连续 随机 变量 。 
假设 连续 随机 变量 X 的 概率 密度 函数 是 pr), SERRE RHYME LAW, RMN 
定义 如 下 : 





h(X) 一 一 | mmlog px(r)dx 一 一 ELlog px(xr) J (10. 10) 


HAX ELH X MRD (differential entropy), 3 — AMM Bes XT A AE X Bl a 

我 们 对 使 用 式 (10. 10) 的 合理 性 可 以 解释 如 下 。 开 始 将 连续 随机 变量 X 看 成 离散 随机 变量 
的 极限 形式 ， 设 x = kôr, HP k= 0, 士 1, 士 2,…，, 且 6z 趋 于 0。 由 定义 ， 连 续 随机 变量 X 取 
值 在 [rz tox] 之 间 的 概率 为 px (xz)56x。 所 以 ， 当 6zx 趋 于 0 时 连续 随机 变量 X 的 普通 粹 可 
以 写成 如 下 极限 的 形式 : 


H(X)=— lim 2) px (2x) dr log( px (1.82) 











一 一 lim| 5 px(z,) og px (x,))dx 十 log6r Ss) px (nar | 


=|) px(dlog pr(r)dr— limlogòr| px(xdde 
= A(X) — limlogéx (10. 11) 
rei 


其 中 最 后 一 行 用 到 了 式 (10. 10) 以 及 在 概率 密度 函数 px (x) 下 方 的 总 面积 为 1 这 个 事实 。 当 6x 
趋 于 0 时 ， 一 log sz 趋 于 无 穷 大 。 这 意味 着 连续 随机 变量 的 炉 是 无 穷 大 。 直 观 上 ， 我 们 也 期 望 
这 是 真 的 ， 因 为 随机 变量 可 以 在 (一 ce,ce) 上 任意 取 值 ， 和 随机 变量 相关 联 的 不 确定 性 是 无 穷 
大 的 。 为 了 避免 随 着 项 log sr 所 带 来 的 问题 ， 我 们 采用 h(XX) 作 为 微分 粹 ,项 一 log 6z 作为 参 
考 。 而 且 ， 由 于 业 作 为 一 个 随机 系统 处 理 的 信息 实体 ， 我 们 感 兴趣 的 实际 上 是 具有 相同 参考 的 
两 个 炳 项 的 差 ， 信 息 将 和 相应 微分 箭 项 之 间 的 差 是 一 样 的 。 所 以 我 们 完全 有 理由 采用 在 式 
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(10. 11) 所 定义 的 项 h(X) 作 为 连续 随机 变量 X WH. 
Aih n ENEE X Xoe X, 组 成 的 随机 连续 向 量 X t, RITE X 的 微分 炳 
Hn 重 积 分 


AGO =— |" px GOlog px(x)dx 一 一 ELlog px] (10. 12) 
其 中 px (x) 是 X 的 联合 概率 密度 函数 ，x 是 XX 的 一 个 样本 。 
例 1 均匀 分 布 
考虑 在 [0,a] 区 间 上 均匀 分 布 的 随机 变量 X， 其 概率 密度 函数 为 ; 
4, 0 < x < a 
oo = {a (10. 13) 
0, 否则 
X MATA : 


hCX) =- f 4 Tlog( Laz = loga 
当 a < 1l,loga Ah, KEREM AONA. ‘Gand E BCA HL ES E BAS 


E ERILE E BY T BB RE. 
当 a=, WR RORA 0. WARBLER EA LE aa eh 





信息 。 m 
M oP PR BY HEIR 
从 式 (10. 10 AHA ACOME MPA ES HERASMEE NIA, Bl 
ACX +c) = hCX) (10. 14) 
其 中 c 为 常量 。 
PC(X) 另 一 个 有 用 的 性 质 是 : 
h(aX) = hACX) + logla| (10. 15) 
其 中 a 为 比例 系数 。 要 证 明 该 式 ， 我 们 首先 知道 概率 密度 函数 曲线 下 方 的 面积 是 1， 故 
_ 1 > 
pr ly) = ayer (2 ) (10. 16) 


接着 应 用 式 (10. 10)， 可 写成 
KY) =—ELlog py Cy)] =— e log (Tipr (>))] 


=—E| log py (¥) | +logla| (10. 17) 
RA Y=aX 得 到 
h(aX) 一 一 | px(z)log px(x)dz + log|a| 


由 此 立刻 得 出 式 (10. 15). 
式 (10.15) 用 于 标量 的 随机 变量 ， 也 可 以 推广 用 于 随机 向 量 X 乘 以 矩阵 A 的 情况 如 下 : 
ACAX) = A(X) + log | det(A) | (10. 18) 


其 中 det(A) 是 矩阵 A 的 行列 式 。 
10.3 RAR 


假设 有 一 个 随机 系统 ， 已 知 一 组 状态 ， 但 不 知 其 概率 ， 而 且 我 们 知道 这 些 状 态 的 概率 分 布 
的 一 些 限 制 条件 。 这 些 条 件 或 者 是 已 知 一 定 的 总 体 平 均值 ， 或 者 是 它们 的 一 些 界限 。 在 给 定 关 
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于 模型 的 先 验 知识 的 条 件 下 ， 问 题 是 选择 一 个 在 某 种 意义 下 最 佳 的 概率 模型 。 我 们 经 常 发 现 有 
无 穷 多 种 模型 可 以 满足 该 条 件 。 应 该 选择 哪个 模型 呢 ? 

这 个 基本 问题 的 答案 基于 Jaynes(1957) HWM RAM RM. RA MER MY A] ARE oF 
(Jaynes, 1957, 2003): 


SRERAEMEEEARBETEM HN, TA h AAA A R A eA LA RAH ME 
分 布 推 得 。 

实际 上 ， 箭 的 概念 在 概率 分 布 空间 定义 一 种 度量 ， 使 得 具有 较 高 彤 的 分 布 比 其 他 的 分 布 共 
有 更 大 的 值 。 | 

MERRIE, BH “RAR” -DARRERA BLAH A ST a g E R» 
FE BEAT 

hO 一 一 | px (x log px(x)de 

对 所 有 随机 变量 X 的 概率 密度 函数 px(z)， 并 满足 以 下 约束 条 件 : 

1. px (zx) 宇 0， 在 工 的 支持 集 之 外 等 式 成 立 


2. | px(Cz)dz 一 1 


3. 上 px (a) gi(a)dz = ai, Xt i = 1,2," ,Mm 


其 中 g,(zx) 是 x 的 一 部 分 函数 。 约 束 1 和 约束 2 描述 概率 密度 函数 的 基本 属性 ， 约 束 3 E 
VASE X HH, CMBR g; (x) 的 表达 式 不 同 而 发 生变 化 。 实 际 上 ， 约 东 3 综合 随机 变量 X 的 
可 用 先 验 知识 。 为 了 解 这 个 约束 最 优化 问题 ， 我 们 利用 第 6 RHA RR. RA 
来 说 ， 首 先 形成 拉 格 朗 日 函数 

J(p) = LC px (x)log px(x) +Aopx (a) 十 Sagi) px (2) |dz (10. 19) 
FE Ag Ars Am ERAS BA EF. IRO. 19) BOR px (z) 的 微分 ， 并 使 其 为 
0， 得 到 


一 1 一 log px(z)+h+ DNgi(r)=0 





解 此 方程 得 

px(x) = exp|— 1 +a + Daig: ) (10. 20) 
在 式 (10. 20) 的 拉 格 朗 日 乘 子 根据 约 东 条 件 2 和 3 选择 。 式 (10. 20) E L A TA a Be A 
分 布 。 


例 2 一 维 高 斯 分 布 
假设 我 们 可 用 的 先 验 知识 为 随机 变量 X 的 均值 和 方差 o*。 根 据 定义 ， 随 机 变量 X 的 方 
差 由 下 式 给 出 : 


oo 


F (z — p? py (x)dx =o = EK 


将 此 式 与 约束 条 件 3 作 比 较 ， 看 出 
gi (x) = (x— yp)’ 


和 


所 以 应 用 式 (10. 20) 可 得 
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px (x) = expl— 1 +å FA lr — y)’ ] 
注意 如 果 px(z) 和 (zx 一 o)?px(x) X r WADE, M 为 负数 。 将 此 等 式 代 人 约束 条 件 
2 和 3， 解 出 4, MAL. BE: 
ào = 1 — log(2xo’) 
和 


Al 二 一 


20 
所 以 希望 的 px (zx) 的 分 布 形式 为 


2 
px(z) = —Lexp(- SE) (10. 21) 


~y eno 20° 





这 是 一 个 均值 为 w 和 方差 为 o* 的 高 斯 随机 变量 X 的 概率 密度 函数 。 这 样 的 随机 变量 的 微分 炳 
的 最 大 值 为 : ` 
A(X) = [1 十 log(2xo2)] (10. 22) 


对 这 个 例子 我 们 总 结 如 下 : 

1. 对 于 给 定 的 方差 oo ， 在 任意 的 随机 变量 中 高 斯 随机 变量 取得 微分 炉 的 最 大 值 。 也 就 是 说 ， 

如 果 头 是 一 个 高 斯 随机 变量 ,，Y 是 其 他 具有 相同 均值 和 方差 的 随机 变量 ， 则 对 所 有 的 了 
ACX) & ACY) 

只 有 当 随 机 变量 Y 也 是 高 斯 时 等 式 成 立 。 

2. 高 斯 随机 变量 鲜 的 炉 值 唯一 取决 于 XX WAL (HX 的 均值 无 关 )。 m 

例 3 多 维 高 斯 分 布 

在 这 第 二 个 例子 中 ， 我 们 想 在 例 2 Re, EIA S aM SH TTR 
AX. HP RMA SRL ee X 的 均值 无 关 ， 为 简化 讨论 ， 我 们 可 以 仅 讨论 具有 均值 
为 0 的 随机 变量 X。 这 样 和 的 二 阶 统计 性 质 由 其 协 方差 矩阵 萱 决定， 它 为 入 同 自身 的 外 积 的 期 
望 所 定义 。 这 样 X 的 联合 概率 密度 荫 数 由 


1 1 — 
px (XxX) = Cd 7 exp(— zx E 'x) (10. 23) 


给 出 (Wilks，1962)， 其 中 det (X) Æ E MÍT., Ado. 122 EX XHAR. BKR 
(10. 23) 代 人 式 (10. 12) ， 得 到 


A(X) = Em + mlog(2n) + log| det(£) |] (10. 24) 
这 包括 式 (10. 22E DRS. HRA RRM. RTT LI: 

STAHL H-ADFAHESD, AHARHAMMAMES TRAMP MP. XC10.23208 
LH SLEMPRAARKORADM, HRABPBHK124 ZX, RE “A” AMMA 
ASX HP EHH FARE. 2 
10.4 互信 息 

考虑 一 对 连续 随机 变量 X 和 Y， 这 两 者 是 相关 的 。 由 概率 理论 ， 可 将 X 和 Y 的 联合 概率 
密度 表示 为 : 





Pry (rey) = pry |r) px (a) (10. 25) 
Aut. Rime. A 
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h(X,Y) = hCX) +ACY |X) (10. 26) 
这 里 ACX.Y PRA X MY WRARD I. A ACY |X) RABE X, Y hko., FCO 
描述 ， 可 以 说 关于 X 和 Y 的 不 确定 性 等 于 关于 X 的 不 确定 性 加 上 给 定 X NY 的 不 确定 性 。 相 
似 地 ， 可 以 说 关于 大 和 Y 的 不 确定 性 等 于 Y 的 不 确定 性 加 上 给 定 Y 时 X 的 不 确定 性 ， 如 下 
AR 





ACX,Y) = ACY +ACK|Y) (10. 27) 

下 面 考虑 一 个 更 加 结构 化 的 状况 ， 这 人 包含 了 一 个 随机 神经 系统 ， 其 中 连续 随机 变量 X 应 

用 到 系统 的 输入 ， 在 系统 的 输出 端 产生 了 一 个 连续 随机 变量 Y。 通 过 定义 ， 微 分 炉 h(X) 是 在 

观察 系统 输出 Y 之 前 关于 系统 输入 X 的 不 确定 性 ， 而 条 件 微分 焙 有 (X17Y) 是 在 观察 了 系统 输 

出 了 之 后 的 系统 输入 X 的 不 确定 性 。 其 差 及 (X) 一 有 H(X1Y) 就 是 由 观察 系统 输出 Y 所 决定 的 

系统 输入 X 的 不 确定 性 。 这 一 炉 差 称 为 系统 输入 X 和 系统 输出 Y 之 间 的 互信 息 ; 记 为 
I(X;Y), 因 此 可 以 写 为 : 


I(X;Y) = h(X) — CXIY) = | 上 prx (ary log (PE 22.) died y 
oo J oa x Y 


= ze px| y (Zz [pr log (2 EY )dedy (10. 28) 





yy (rey) 


对 于 式 (10. 28) 中 第 一 行 到 第 二 行 的 转变 ， 参 看 习题 10. 2。 微 分 精 是 互信 息 的 一 个 特例 ， 因 为 有 
A(X) = 1(X;X) 

式 (10. 28) 中 互信 息 IX; YWARR AR ARR CX). HH. LEE I(Y;X) 可 以 表示 为 

ta HA ACY) 





I(CY;X) = ACY) —ACY |X) (10. 29) 
HP ACY|X)#AE XIN Y WAAR. HAE IY; X) 是 通过 观察 系统 输入 X 得 到 的 关 
于 系统 输出 Y 的 不 确定 性 。 
两 个 连续 随机 变量 XAY 之 间 的 互信 息 具 有 三 个 重要 性 质 : 
性 质 1 非 负 性 
BAZ MIX; Y) 总 是 非 负 的 ， 即 
I(X;Y) >0 (10. 30) 
这 个 性 质 说 明 ， 通 过 观测 系统 的 输出 Y， 平 均 说 来 我 们 不 可 能 丢失 系统 输入 X 的 信息 。 而 且 ， 
当 且 仅 当 输入 和 输出 统计 独立 时 互信 息 为 0。 
性 质 2 对称 性 
这 第 二 个 性 质 说 明 
I(Y;X) = I(X;Y) (10. 31) 
性 质 1 和 性 质 2 可 由 式 (10. 28) 的 定义 公式 直接 得 到 。 
将 式 (10. 26) 到 式 (10. 31) 综 合 起 来 ， 我 们 有 
I(X;Y) = hCX) 一 天 (XIY) = ACY) — ACY |X) = (A(X) +ACY)) — hCX,Y) (10. 32) 


a ae | 
2003), RBA X 的 微分 精通 过 图 中 第 2 个 = 


矩形 来 表示 ， 系 统 输 出 Y West (oo | 
第 3 个 和 矩形 来 表示 。 X 和 YY 之 间 的 互信 息 表 h CY) 
示 为 图 中 的 阴影 区 域 ， 通 过 这 两 个 矩形 之 间 的 = 
h CXIY) h (YIX) 
HEXEN. APERA TIKER Y) K eon 
EAR AAT ARE CX |Y) MAY |X). 图 10.1 式 (10. 32) 中 包含 的 关系 ， 包 括 互 信息 IX Y) 
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性 质 3 不 变性 
在 随机 变量 的 可 逆 变 换 下 互信 息 是 不 变 的 。 
考虑 可 逆 变 换 
u = f(x) 
和 
v= gly) 


Jib x Aly 是 随机 变量 X ALY 的 样本 ,uw 和 是 变换 后 的 随机 变量 UAV 的 样本 值 。 互 信息 
I(X;Y) = I(U;V) (10. 33) 
HEM x Blu 的 变换 以 及 从 y 到 4 的 变换 都 是 可 逆 的 ， 在 这 两 个 变换 的 过 程 中 没有 损失 信息 。 
从 直觉 上 ， 这 一 结果 验证 了 互信 息 的 不 变性 。 
互信 息 的 一 般 性 
在 式 (10. 28) 中 给 出 的 互信 息 I(X;Y) 的 定义 应 用 于 标量 随机 变量 X 和 了 。 这 个 定义 也 易 
于 扩展 至 随机 向 量 X 和 YY， 因 此 可 以 写成 I(X;Y)。 具 体 地 ， 定 义 互信 息 1(X;Y) 为 


bxy (xy) ) xdy 


I(X;Y)= ACX) — h(XIY) =f F Pxx (x y)log( 7 TNO 
T% J S90 x Y 


=| f palv a19) pr log (22% LY )axay (10. 34) 
oe | | 


Py OO) 


互信 息 ITCX;Y) 同 样 具 有 与 式 (10. 30) 和 式 (10, 31) 的 关于 标量 随机 变量 性 质 平行 的 性 质 ， 这 直 
观 上 是 满足 的 。 


10.5 #8 xt HH 


在 式 (10. 34) 中 定义 的 互信 息 IX; Y)， 作 用 于 随机 神经 系统 ， 其 输入 和 输出 相应 地 记 为 
多 维 向 量 X 和 Y。 下 面 考虑 同样 的 系统 ， 但 这 一 次 我 们 有 两 个 不 同 的 概率 密度 函数 px C(x) 和 
gx(x) 作 为 输入 向 量 X 的 潜在 的 可 能 说 明 。 然 后 我 们 可 以 定义 在 px(x) 和 gx CO ZT RIAR XT 
(KLD) 如 下 (Kullback, 1968; Shore and Johnson, 1980); 








Dig = | px log (2S Jax = E| lo e( )| (10. 35) 
其 中 的 期 望 是 对 概率 密度 函数 px(x) 。 ‘ 
KLD 有 两 个 其 自身 特有 的 性 质 : 
性 质 1 非 负 性 
这 个 性 质 表明 
Doig 0 (10. 36) 
对 于 gx (x) 二 px (Xx) 的 特例 ， 两 个 分 布 完全 重合 ， 而 KLD ERAS. 
性 质 2 不 变性 
考虑 可 道 变 换 
y = f(x) 


其 中 x 和 y 是 相应 的 随机 变量 X AY 的 样本 。 相 应 地 ，KLD 在 这 个 变换 下 是 不 变 的 ， 这 意 


味 着 
Dy is, = Dete, 


Dy, ix 是 相应 于 输入 向 量 X 的 KLD，Dure 是 相应 于 变换 后 输出 向 量 Y 的 KLD. 
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相对 精 和 互信 息 之 闪 的 关系 
一 对 向 量 X 和 立 之 间 的 互信 息 ICX;Y) 用 相对 烧 有 一 个 有 趣 的 解释 。 为 了 表述 的 方便 重 写 
式 (10. 34) 的 第 二 行 ， 有 
roD 一 | | peavey log (Pee) andy 
然后 将 这 一 式 子 和 式 (10. 35) 作 比较 。 我 们 立即 推 得 
I(X;Y) = D,, | pr pe (10. 37) 


总 的 来 说 ，X 和 YY 之 间 的 互信 息 I(X;Y) 等 于 联合 概率 密度 函数 px.y (x,y) 以 及 概率 密度 函数 
Dx Cx) A py Cy) FA) FR AY ABT HH 


HAAJ Fe BH FE 
式 (10. 37) 描 述 的 后 一 结果 的 特例 是 mX1 的 随机 向 量 X 的 概率 密度 函数 px OO ATELY m 个 边 
缘 概 率 密度 函数 的 积 的 相对 业 。 令 Px (zi) 记分 量 X 的 第 i 个 边缘 概率 密度 函数 ， 定 义 为 : 
Bx (ei) = {pr OO dx® si = 1,204 (10. 38) 
其 中 xO 是 一 个 从 向 量 z PRESB i 个 元 素 后 的 On—-DX1 向 量 。 定 义 级 乘 分 布 为 
Peo = JI Bx Cx) 
这 表示 一 个 随机 变量 的 独立 集合 。 这 个 集合 中 的 第 i 个 分 量 X; 的 分 布 是 和 原始 随机 向 量 的 


第 i 个 边缘 分 布 相同 的 。 通 常 概率 分 布 px (x) 和 级 乘 配对 Bx OO ZHAI KLD 定义 为 
px Cx) 


D » =|- wog = dx 
ii -人 ao 


= | px (x) log py Gd) dx — D bx (x) log px, (xi) dx (10. 39) 


MRE, AOO SDE -AAWS-TADST-ACD, RPAN E X HADR. 为 了 处 
理 等 式 右 端 第 二 项 ， 我 们 首先 注意 到 微分 dx 可 以 表示 为 
dx 一 dx‘? dz; 





因此 ， 可 以 写 
F px (X)log Px, (Xi)dx = r log px, (xf px (x) dx® da; (10. 40) 
其 中 右 端 内 层 积分 是 对 (m 一 1) X1 向 量 x” 积 分， 而 外 层 积 分 是 对 标量 xz; 积分 。 但 从 (10. 38) 
我 们 发 现 内 层 积 分 实际 上 等 于 边缘 概率 密度 函数 Bx (zi)。 由 此 可 以 将 式 (10. 40) 重 写 为 等 价 
ÉA: 
| pxGolog Bx (xi) dx = | Bx Cz)log Bx, Cd, = ACK), 一 12 
(10. 41) 
其 中 廊 (X,) 是 第 i 个 边缘 粹 〈 即 边缘 概率 密度 甫 数 Bx (XO MEADE. RARR. 41) 代 入 
式 (10. 39)， 并 注意 式 (10. 39) 中 的 第 一 个 积分 为 一 AC(X) ,我 们 将 式 (10. 39) 的 相对 箭 简化 为 
D;, 14, = ACK) + DEX) (10. 42) 


在 本 意 后 面 ， 我 们 将 要 利用 这 一 公式 来 学 习 独 立 分 量 分 析 。 
Pythagorean 分 解 
下 面 我 们 考虑 概率 密度 函数 py GO) 和 po GO ZAI MOM, SREE x 是 随机 向 量 X 和 避 
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的 共同 样本 ，z 是 x 的 第 i 个 分 量 。mX1 随机 向 量 U 是 由 独立 的 变量 组 成 
pu Xx) 一 TI pucz.) 
而 mxi AMENER X Hw UEA 
X = AU 
其 中 A 是 一 个 非 对 角 和 矩阵 。 邻 Bx (zxi) 表示 从 px OO SMT OX, 的 边缘 概率 密度 ， 则 
px (xX) 和 pu(X) 之 间 的 相对 炉 可 以 作 如 下 的 Pythagorean 分 解 : 


Daia = Daian = Do, is, (10. 43) 
我 们 之 所 以 称 这 个 经 典 的 关系 为 Pythagorean 分 解 ， 是 因为 它 具 有 信息 -几何 解释 (Amari， 
1985)°, 
10.6 Kia 


互信 息 ICX;Y) ET OT LE BOX A Y SAE ae EE. a — A R A 
我 们 可 以 参看 基于 式 (10. 32) 的 图 解 图 10.1。 然 而 ， 这 一 等 式 缺 少数 学 上 的 洞察 力 。 具 体 地 ， 
如 果 互 信息 KX;Y) 是 0， 它 告诉 我 们 随机 变量 X MY 是 统计 独立 的 。 但 是 ， 如 果 I(X;Y) 大 
于 0， 确 认 在 X 和 立 之 间 的 统计 依存 性 ， 却 没有 提供 给 我 们 这 一 依存 的 统计 测量 。 

为 了 详细 说 明 ， 考 虑 一 对 随机 变量 ， 其 样本 值 相应 地 记 为 x 和 y。 感 兴趣 的 问题 是 形成 在 
X 和 YY 之 间 的 统计 依存 的 测量 ， 其 不 受 其 尺度 变换 或 变化 的 影响 。 为 了 完成 这 一 目标 ， 我 们 
将 X 和 YY 变换 为 相应 的 两 个 新 的 随机 变量 U 和 V， 使 得 U 和 了 在 区 间 [0,1] 上 一 致 分 布 。 这 
一 变换 是 一 种 非 线 性 尺度 变换 ， 可 用 累积 分 布 函 数 Px(Cz) 和 Py(y) 来 表示 ; 它 是 通过 设 

u = Px (x) 
和 

v= Py(y) 
来 完成 的 。 其 中 xx Av 是 随机 变量 U AV 的 相应 的 样本 值 。(U,V) 的 联合 概率 分 布 函 数 在 单 
位 正方 形 [0,1]X[0,1] 上 分 布 ， 当 且 仅 当 原 始 随机 变量 X 和 Y( 或 者 ， 等 价 于 新 的 随机 变量 U 
和 YY) 是 统计 独立 时 这 个 分 布 是 一 致 的 。X 和 YY 的 联合 分 布 因 此 转换 为 U 和 Y 在 单位 正方 形 上 
的 联合 分 布 ， 这 里 边缘 分 布 是 一 致 的 。 

新 的 随机 变量 对 (U,V) 是 唯一 决定 的 ， 它 被 称 为 系 词 (copula)*。 正 式 地 ， 


系 词 是 在 自由 分 布 方式 下 模型 化 U 和 VV 之 间 统 计 依 存 的 画 数 ， 包 含 随 机 变量 对 (U,V)。 
我 们 可 以 继续 说 明 关 于 系 词 的 Sklar 定理 如 下 (Sklar，1959): 
给 定 累积 分 布 函数 了 PPyvy(Czyy)， Px(X) 和 Py(y), 存在 唯一 的 系 词 Cuv 《Usv) 满 足下 面 的 关 


系 : 
Px,y (X,Yy) = Cuv (Px (7x), Py(Cy)) (10. 44) 


和 
Cu wv u,v) = PCPx! (x), Pr (y)) (10. 45) 
其 中 两 个 新 的 随机 变量 U 和 VV 是 原始 随机 变量 久 和 YY 对 应 的 非 线 性 变换 ， HER ufu 
LA 
u = Px (x) (10. 46) 
fo 
v= Py(y) (10. 47, 


随机 变量 对 (U,V) 的 联合 分 布 在 单位 正方 形 上 分 布 。 
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系 词 的 性 质 
性 质 1. 系 词 的 有 限 值 
由 于 样本 和 w 局 限于 范围 [0,1] ， 系 词 值 自身 就 局 限于 
Cu.v (u,0) 一 Cu,v (0 ,vu) 一 0 Cu.v (u,1) = u Cu,v (1 ,v) =v 
性 质 2. 利用 系 词 表示 联合 密度 px,y (x,y) 
用 系 词 来 将 联合 概率 密度 函数 px.y (+，y) 表 示 为 三 项 的 积 : 
。 边缘 概率 密度 函数 px(z) 和 pry). 
。 系 词 的 联合 概率 密度 函数 cuv (u,v)。 
为 了 建立 这 一 关系 ， 我 们 从 联合 概率 密度 函数 的 基本 定义 开始 : 


2 
pxr (X,Yy) = BB 79) 
然后 ， 利 用 式 (10. 44)， 我 们 写 


2 
pxy xy) = a pE (Px (2) Pro) = 2 S Cuv Px) PrO) 





_ 9 | 2 Ə 
Ox ay OoPyCy) 


其 中 ， 在 最 后 一 行 ， 利 用 定义 Py(y) = v, Cuv Px), Pry 表示 系 词 对 Py(y) 的 微分 。 边 
缘 Py(y) 是 独立 于 x 的， 我们 继续 写 


pxy Xiy) = pyly) Cow (Prle) +0) = p(y) 


Cow (Px (2), Pr) | = Lpr (Cov PxC) +09] 


OPx (x) fe) 
or «(OP x(x) 








Cov (Px (2) >u) 


= pyl(y)px(z)Cuwv(Px(x),v) 
这 里 Cuv (Px (x), 2) 表 示 导 数 Cu.v (Px (x) 9 vu) Xf Px(z) 的 微分 。 最 后 ， 认识 到 Px (xX)=u, 
通过 定义 ， 系 词 的 联合 概率 密度 函数 表示 为 


2 
cov (tev) = 525 Cuv (ure) (10. 48) 
我 们 获得 下 面 的 关系 
pxr (X,Y) = Px x) py Cy) cu,v (u,v) (10. 49) 


ACO. 49) 引 导 我 们 给 出 如 下 的 说 明 ，; 
如 果 两 个 随机 变量 入 和 立 是 统计 依存 的 ， 则 系 词 的 联合 密度 cu,r(x,z) 清 晰 地 说 明了 X 和 
Y 了 之 间 的 统计 依存 。 
例 4 两 个 统计 独立 随机 变量 的 系 词 
令 随机 变量 X 和 YY 为 统计 独立 的 。 我 们 就 有 
Puy (toy) = px (x) py Cy) 


在 这 一 条 件 下 ， 式 (10. 49) 
cuv (u,v) =l, 4O0<u,v<l 


相应 地 有 
Coy (uv) = F Govt od dude = | Tauav = w 
因此 ， 当 相应 的 随机 变量 X 和 YY 是 统计 独立 的 时 候 ， 系 词 的 密度 Cuv luu) Suv FU AVE 
接 起 来 。 m 
H. fa BAA i i e KR 
有 了 刚刚 介绍 过 的 系 词 的 背景 ， 我 们 现在 可 以 给 出 另 一 个 说 明 : 
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两 个 随机 变量 久 和 YY 之 间 的 互信 息 是 相应 的 非 线 性 变换 随机 变量 对 U 和 VV 的 系 词 联 合 炳 
的 相反 数 。 

为 了 说 明 这 一 关系 ， 我 们 讲述 如 下 : 

1. 由 于 随机 变量 U 和 V 是 作用 于 原始 随机 变量 XX MY 上 的 可 道 变换 ， 根 据 第 10. 4 节 讲 
述 的 互信 息 的 不 变性 立即 可 得 

I(X;Y) = I(U;V) 
2. 将 式 (10. 32) 的 最 后 一 行 作 用 到 互信 息 TI(U; VLA 
TIU5V) = he) + he (V) — he (U,V) 

由 于 随机 变量 U 和 V 都 在 区 间 [0,1] 上 一 致 分 布 ， 因 此 微分 粹 h(U) 和 h(V) 是 0。 因此 ， 
KU; VÆRA 


IU;V) =— he (U,V) = ELlogey.y u,v) ] (10. 50) 
这 是 所 需要 的 关系 。 
ERAO. 50) 中 定义 的 互信 息 直 观 上 比 式 (10. 32) 中 给 出 的 三 个 标准 公式 更 让 人 满意 ， 这 是 
因为 以 下 两 种 原因 


1. 给 定 一 对 随机 变量 ， 它 们 之 间 的 互信 息 直 接 表示 为 系 词 的 函数 ， 面 系 词 是 和 两 个 随机 
变量 之 间 依 存 性 相 匹 配 的 潜在 分 布 的 部 分 。 
2. 互信 息 不 是 两 个 随机 变量 边缘 分 布 的 函数 。 
此 外 ， 根 据 式 (10. 49) ， 可 以 有 两 个 更 加 深刻 的 备注 : 
ICX;Y) = 0 H M F cuylusv) =1 
ICX;sY) > 0 对 应 于 cuylusv) > 1 


10.7 互信 息 作为 最 优化 的 目标 函数 


现在 我 们 对 香农 的 信息 论 已 经 有 了 足够 的 了 解 ， 可 以 讨论 它 在 研究 自 组 织 系 统 中 的 作用 。 
为 了 进行 讨论 ， 设 有 一 个 多 输入 /多 输出 的 神经 网 络 系统 。 在 这 里 主要 目标 是 为 一 个 特定 
任务 (例如 ， 建 模 、 抽 取 统 计 突 出 特征 或 信号 分 离 》 而 设计 的 系统 进行 自 组 织 。 通 过 选择 某 些 
系统 变量 间 的 互信 息 作 为 优化 的 目标 函数 ， 这 个 要 求 可 以 满足 。 这 种 特定 的 选择 由 下 面 两 个 考 
虑 得 到 证 明 : 
1. 如 同 第 10. 4 节 到 第 10. 6 节 的 讨论 ， 互 信息 具有 一 些 独特 的 性 质 。 
2. 无 需 教师 也 可 确定 互信 息 ， 这 样 自然 就 完成 了 自 组 织 的 准备 。 
问题 变 成 了 系统 调整 自由 参数 之 一 〈 即 突 触 权 值 ) 以 优化 互信 息 的 问题 。 
根据 感 兴趣 的 应 用 的 不 同 ， 我 们 能 够 确定 如 图 10. 2 所 示 的 4 种 不 同情 况 。 这 些 情况 可 以 
描述 如 下 : 
。 在 图 10. 2a 描绘 的 情况 1， 输 入 向 量 X AX, XL X, 组 成 ， 输 出 向 量 Y 由 分 量 
Yi ,Yi,… ,YY 组成。 需求 是 最 大 化 传送 到 系统 输出 Y 的 关于 系统 输入 XX 的 信息 ( 即 通 
过 系统 的 信息 流 )。 | 
。 在 图 10. 2b 描绘 的 情况 2， 一 对 输入 向 量 X AX, 是 从 相 邻 但 不 重要 的 图 像 区 域 截 取 而 
来 。 各 自 产生 的 标量 输出 分 别 是 Y, 和 Y, 。 需 求 是 最 大 化 传送 到 Y, 的 关于 Y 的 信息 ， 
以 及 相反 的 需求 。 
。 在 图 10. 2c 描绘 的 情况 3， 输 入 向 量 筷 AX, 是 从 两 幅 不 同 但 相关 的 图 像 相 应 部 分 截取 
而 来 。 各 自 产生 的 输出 分 别 是 Y 和 Y。， 需 求 是 最 小 化 传送 到 Y, 的 关于 YY 的 信息 ， 
以 及 相反 的 需求 。 
。 在 图 10. 2d 描绘 的 情况 4， 输入 向 量 X 和 输出 向 量 Y 与 图 10. 2a 定义 的 形式 相似 ， 但 有 相 
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同 的 维 数 〈 即 /二 m) 。 这 里 的 目标 是 使 输出 向 量 Y 的 各 分 量 之 间 的 统计 相关 最 小 化 。 
在 所 有 的 这 4 种 情况 下 ， 互 信息 起 核心 作用 。 但 是 ， 它 的 推导 过 程 还 是 要 根据 所 考虑 的 具 
体 情 况 而 定 。 在 本 章 余下 的 部 分 将 以 刚才 罗列 的 顺序 讨论 涉及 这 些 情况 的 问题 以 及 它们 的 实际 
含义 。 更 重要 的 是 ， 必 须 指出 情况 4 包含 了 本 章 中 讲述 的 理论 、 计 算 算法 、 应 用 的 多 个 素材 ， 
这 反映 了 信息 论 模 型 的 实践 关系 。 













Xan 
Xa O ¥, 
最 大 化 传送 到 Y x, : D 
的 关于 X 的 信息 x 最 大 化 传送 到 
5 y 的 关于 上 的 信 
! onl 息 ， 或 相反 
9 输出 x “ne _ 
: Y : " 
Y, Npm 
b) 
Xa 
Xa O Y, 7 
Xn 最 小 化 传送 到 Y, 
: BE FY A X 5 y 
‘ 5 mhg x Sn | sees 
2 5 A T 之 闻 的 统 
b ` 计 相 关 
Xm Xn 


Yn 
c) d?) 


图 10.2 适用 于 信息 最 大 化 的 应 用 及 其 三 个 变 体 的 四 种 基本 情况 


10.8 最 大 互信 息 原 则 


设计 一 个 神经 处 理 器 ， 使 互信 息 1(Y;X) 最 大 的 思想 是 吸引 人 的 ， 这 一 思想 是 统计 信号 处 
理 的 基础 。 这 种 优化 方法 在 Linsker(1987，1988a，1989a) 提出 的 最 大 互信 息 (maximum mu- 
tual information (Infomax)) 原 则 中 得 以 体现 ， 它 可 正式 陈述 如 下 ， 


从 神经 系统 的 输入 层 观 测 到 的 随机 向 量 和 到 系统 的 输出 层 得 到 的 随机 向 量 立 之 间 的 变换 
应 该 这 样 选择 ， 这 种 变换 使 得 输出 层 神经 元 的 活动 共同 最 大 化 关于 输入 层 神 经 元 的 活动 的 信 
息 。 最 大 化 的 目标 吕 数 是 向 量 X 和 YY 之 间 的 互信 息 I(Y;X)。 

最 大 互信 息 原则 提供 了 一 个 解决 如 图 10. 2a 所 描述 的 信息 传输 系统 自 组 织 的 数学 框架 ， 它 
独立 于 实现 它 所 使 用 的 规则 ， 假 设 输出 向 量 Y 的 分 量 数 ! 小 于 输入 向 量 x 的 分 量 数 w。 同 样 ， 
这 个 原则 也 可 以 看 作 信道 容量 这 个 概念 在 神经 网 络 中 的 对 应 物 ， 信 道 容量 定义 为 通过 一 个 通信 
信道 的 信息 传输 率 的 香农 极限 。 

接 下 来 ， 我 们 给 出 两 个 涉及 有 噪声 的 单 神经 元 的 例子 说 明 最 大 互信 息 原则 的 应 用 。 在 一 个 
例子 中 噪声 出 现在 输出 端 ， 而 在 另 一 个 例子 中 噪声 出 现在 输入 端 。 

BS 被 过 程 噪 声 破坏 的 单 神经 元 

考虑 线性 神经 元 的 简单 情形 ， 假 设 系统 从 m 个 源 节点 接受 输入 。 令 该 神经 元 的 输出 中 出 
现 过 程 噪声 ， 可 表示 为 


Y= (d}wX,) +N (10. 51) 
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其 中 w 为 第 i 个 突 触 权 值 ，N 为 过 程 噪声 ， 如 图 10. 3 所 示 的 模型 。 假 设 : 


三 x, 





输出 随机 变量 
oY 








图 10.3 噪声 神经 元 的 信号 流 图 


。 输出 Y 是 一 个 零 均 值 以 方差 为 o7 的 高 斯 随机 变量 。 
。 JERE N 也 是 一 个 高 斯 随机 变量 ， 均 值 为 0， 方差 为 oh。 
。 JERE N 与 输入 向 量 的 任何 一 个 分 量 都 不 相关 ， 也 即 
ELNX,] 一 0， 对 于 所 有 i 
输出 工 的 高 斯 性 可 以 用 两 种 方法 之 一 得 到 满足 。 首先 ， 输 入 Xi ,X,,… Xn 全 部 是 高 斯 分 布 
的 。 再 假设 附加 的 噪声 N 也 是 高 斯 的 ， 则 了 的 高 斯 性 可 以 保证 ， 这 是 由 于 一 组 高 斯 分 布 的 随 
机 变量 的 加 权 和 仍 是 高 斯 的 。 或 者 ， 输 入 Xi ,X;,…,X 是 统计 独立 的 ， 且 在 温和 的 条 件 下 ， 
利用 概率 论 的 中 心 极限 定理 ， 它 们 的 加 权 和 在 m 很 大 时 趋 近 于 高 斯 分 布 。 
为 了 进行 分 析 ， 我 们 首先 注意 到 在 式 (10. 32) 的 第 二 行 ， 神 经 元 的 输出 向 量 Y 和 输入 向 量 
X 之 间 的 互信 息 1(Y;X) 是 
ICY;X) = ACY) — RY |X) (10. 52) 
根据 式 (10. 51) ， 注 意 在 已 知 输入 向 量 X 的 情况 下 ， 输 出 Y 的 概率 密度 函数 等 于 一 个 常数 加 上 
一 个 高 斯 分 布 的 随机 变量 的 概率 密度 函数 。 因 此 ， 条 件 炉 h(Y|X) 是 由 输出 神经 元 传送 的 关于 
过 程 噪声 NN 而 不 是 信号 向 量 买 的“ 信息”。 我 们 可 以 设置 ; 
h(Y|X) = ACN) 
因此 式 (10. 52) 可 以 重新 简化 为 


IC(Y;X) = hY) — A(N) (10. 53) 
应 用 式 (10. 22) RTA LE eS a YB 4 Ya, ER AT 9 
aO) = 3[1+ log(2n of) ] (10. 54) 
和 
ACN) = $01 + log(2x ok) ] (10. 55) 
经 过 简化 ， 将 式 (10. 54) 和 式 (10.55) 代 入 式 (10. 53) 得 
1(Y;X) = Flos( 2) (10. 56) 


其 中 of 依赖 于 oh。 
比值 路 /on PEER RNE. BERETE ou 为 固定 的 约束 条 件 ， 从 式 (10. 56) 看 出 互信 息 
TI(Y;X) 是 通过 神经 元 输出 Y 的 方差 ny 的 最 大 化 而 最 大 化 的 。 因 此 可 以 这 样 说 ， 在 一 定 的 条 件 
下 ， 使 神经 元 输出 的 方差 最 大 化 也 就 是 使 神经 元 的 输出 信号 和 它 的 输入 之 间 的 互信 息 最 大 化 。 
最 后 ， 由 附加 的 过 程 噪声 破坏 的 单一 神经 元 的 处 理 基于 最 小 化 输出 方差 ， 产生 了 由 第 8 章 
讨论 过 的 Oja 规则 训练 的 PCA 神经 元 的 一 个 解 。 m 
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例 6 受 附加 输入 噪声 破坏 的 单个 神经 元 
假设 噪声 影响 在 每 一 个 输入 节点 的 突 触 末 端的 线性 神经 元 的 行为 ， 如 图 10. 4 所 示 。 根 据 
第 二 个 噪声 模型 得 出 : 


Y= >) mi(X 十 Ni) (10. 57) 


其 中 假设 每 个 噪声 分 量 N 是 一 个 独立 高 斯 随机 变量 ， 其 均值 为 0， 共 同方 差 为 ch 。 将 式 
(10. 57) 改 写成 类 似 式 (10. 51) 的 形式 : 


其 中 N 是 噪声 分 量 的 组 合 ， 定 义 为 
N= Sw, 
噪声 N “是 一 个 高 斯 分 布 ， 其 均值 为 0， 方差 为 所 有 独立 噪声 分 量 方差 的 加 权 和 ， 即 


m 

2 __ 22 

on = > WON 
j=] 


(x 





输出 随机 变量 
输入 随机 Y 
75 i SE 4 








(Xn 


Ny 
REENE 
图 10.4 神经 元 的 另 一 个 噪声 模型 
与 前 类 似 ， 我 们 假设 神经 元 的 输出 变量 Y 是 方差 为 of 的 高 斯 分 布 。Y 和 外 之 间 的 互信 息 
ICY; XR RO. 52) 给 出 。 但 是 ， 这 一 次 条 件 炉 hl(Y|XX) 定 义 如 下 : 








h(Y|X)= ACN) = > + 2xo% ) 一 ae | nok ut | (10. 58) 
这 样 ， 将 式 (10. 54) 和 式 (10. 58) 代 入 式 (10. 52) 并 简化 ， 可 得 
1(Y;X) = 1log( 一 至 一 ) (10. 59) 
2 
oy >) wi 
在 约束 噪声 方差 A 保持 常量 的 条 件 下 ，I(Y;X) 的 最 大 化 就 是 比值 oy/ Dwi 的 最 大 化 ， 其 中 
oe FE w fF] PR BY a 


我 们 可 从 例 5 和 例 6 推出 什么 结论 ? 首先 ， 从 给 出 的 两 个 例子 可 以 看 出 ， 应 用 最 大 粒 原 则 
的 结果 依赖 于 问题 。 对 于 给 定 噪声 方差 A, RAKERA I(Y;X) 和 应 用 于 图 10. 3 的 模型 
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输出 的 方差 之 间 的 比 等 价 ， 并 不 能 直接 转 到 图 10. 4 的 模型 。 只 有 当 对 图 10.4 的 模型 加 上 
Vwi=l WARM, 图 10.4 和 图 10. 3 所 代表 的 模型 才 有 相似 的 行为 。 

一 般 说 来 ， 确 定 输 和 向量 X 与 输出 向 量 Y 的 互信 息 IY; X) 是 很 困难 的 。 在 例 5 和 例 6 
中 ， 为 了 数学 上 分 析 的 方便 ， 我 们 假设 系统 噪声 分 布 是 一 个 或 多 个 噪声 源 的 多 元 高 其 分布。 这 
个 假设 需要 在 最 大 互信 息 原 则 的 实际 应 用 中 验证 。 

当 采 用 高 斯 噪声 模型 时 ， 本 质 上 是 采用 互信 息 的 一 个 替代 ， 其 计算 的 前 提 是 神经 元 的 输出 
向 量 Y 是 一 个 均值 向 量 和 协 方差 矩阵 都 与 实际 情况 相同 的 多 元 高 斯 分 布 。 在 Linsker (1993) 
中 ， 利 用 相对 烛 供 对 于 这 种 条 件 下 替代 互信 息 的 一 个 原则 性 理由 ， 这 些 都 假设 网 络 已 经 存储 
关于 输出 向 量 立 的 均值 向 量 和 协 方差 矩阵 而 不 包含 更 高 阶 统计 。 

最 后 ， 在 例 5 和 例 6 给 出 的 分 析 情 况 只 是 对 于 一 个 神经 元 进行 的 。 有 意 这 样 做 是 为 了 最 大 互 
信息 原则 在 数学 上 易于 处 理 ， 最 优化 应 该 在 局 部 神经 元 级 进行 。 这 种 优化 符合 自 组 织 的 本 质 。 

例 7 无 噪声 网 络 

在 例 5 和 例 6 中 ， 考 虑 了 带 有 噪声 的 神经 元 。 在 本 例 中 我 们 研究 一 个 无 噪声 的 网 络 ， 它 将 
任意 分 布 的 随机 向 量 X 变换 为 新 的 具有 不 同 分 布 的 随机 向 量 Y。 注 意 ICXsY) =ICY;X), HA 
在 这 里 展开 式 (10. 32) 的 第 2 行 ， 可 以 将 输入 向 量 X 和 输出 向 量 Y 之 间 的 互信 息 表达 为 : 

ICY;X) = ACY) —hCY|X | 
Hp AOE YHK, ACY | XO BABE X 的 条 件 下 YY OAR. 假设 从 XX 到 YY 的 映射 是 无 噪 
声 的 ， 条 件 焙 h(Y1X) 取 其 最 小 的 可 能 值 ， 它 发 散 到 一 oo。 这 是 由 于 在 10. 2 节 讨 论 的 连续 随机 
变量 箭 的 微分 特性 的 必然 结果 。 但 是 ， 当 我 们 考虑 互信 息 1(Y;XX) 对 参数 化 映射 网 络 的 权 值 矩 
阵 W 的 梯度 时 ， 这 个 困难 并 不 造成 什么 后 果 。 具 体 地 ， 可 以 写成 


oI(Y;X) _ ƏACY) 
SW SW (10. 60) 


因为 条 件 炉 h(Y|X) 与 W 独立 。 式 (10. 60) 表 明 : 
对 于 一 个 无 骂 声 映射 网 络 ， 最 大 化 网 络 输 出 Y 的 微分 粮 就 等 于 最 大 化 Y MBA KS 
MMAR, AMR TRA BH RE W 最 大 化 。 z 





10.9 最 大 互信 息 和 元 余 减 少 


在 香农 的 信息 论 框 架 中 ， 序 和 结构 代表 元 余 ， 它 减少 接受 方 对 信息 分 辨 的 不 确定 性 。 在 固 
有 过 程 中 我 们 拥有 的 序 和 结构 越 多 ， 则 观察 这 个 过 程 获得 的 信息 量 就 越 少 。 例 如 考虑 高 度 结构 
化 和 宛 余 的 序列 aaaaaa。 一 旦 得 到 第 一 个 样本 a， 则 我 们 就 可 以 立即 知道 其 余 后 面 五 个 都 是 一 
样 的 a。 这样 的 一 个 序列 所 传递 的 信息 的 极限 是 单个 符号 传递 的 信息 量 。 换 名 话说， 样本 序列 
的 元 余 越 大 ， 序 列 中 所 含 的 信息 内 容 也 就 越 少 ,但 是 该 信息 内 容 的 结构 越 多 。 

从 互信 息 TCY;X) 的 定义 ， 我 们 知道 这 是 通过 观察 系统 输入 来 决定 输出 Y 的 不 确定 性 的 
度量 。 最 大 互信 息 原则 是 使 互信 息 I(Y;X) 最 大 ， 其 结果 是 我 们 在 观测 到 输入 为 X 时， 对 系统 
输出 Y 增加 确定 性 。 考 虑 到 前 面 提 到 的 信息 与 元 余 之 间 的 关系 ， 因 此 我 们 可 以 说 : 


最 大 互信 息 原则 导致 与 在 输入 中 的 宛 余 比较 而 言 减少 输出 Y 中 的 宛 余 。 


噪声 的 出 现 是 推动 使 用 完 余 以 及 相 异 性 (diversity) 相关 方法 的 一 个 因素 ， 相 异性 的 定义 
如 下 : 通过 一 个 处 理 器 产生 不 同性 质 的 两 个 或 多 个 输出 。 而 且 ， 当 输入 信号 的 附加 性 噪声 很 高 
时 ， 我 们 可 以 利用 宛 余 来 减少 噪声 的 效果 。 在 这 种 环境 下 ， 输 入 信号 之 间 的 更 多 OK) 分量 
都 由 处 理 器 组 合 起 来 ， 以 提供 输入 的 精确 表示 。 同 样 ， 当 输出 端的 噪声 〈 即 处 理 器 噪声 ) 很 高 
时 ， 给 出 更 多 的 输出 分 量 以 提供 宛 余 信息 。 在 处 理 器 输出 端 观 测 到 的 相互 独立 的 属性 也 相应 地 
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减少 了 ， 但 各 个 属性 表示 的 精确 度 反 而 提高 了 。 因 此 ， 高 水 平 的 噪声 有 利于 表示 的 宛 余 。 但 
是 ， 当 噪声 水 平 很 低 时 ， 表 示 的 相 异 性 比 宛 余 更 有 利 。 
感知 系统 建 模 


自从 信息 论 的 早期 ， 就 提出 了 感觉 消息 〈 刺 激 ) 的 元 余 对 感知 理解 非常 有 用 (Attneave， 
1954; Barlow，1959) 。 感 觉 消息 的 元 余 提 供 了 人 脑 建立 其 周围 环境 的 “ 认 知 映射 ”或 “工作 
模型 ”。 在 感觉 消息 中 规则 必须 以 某 种 方式 被 人 脑 编码 ， 使 它 知道 什么 经 常 发 生 。 但 是 ， 宛 余 
减少 是 Barlow 假设 的 特定 形式 。 这 个 假设 说 明 : 


早期 处 理 的 目的 是 将 高 宛 余 的 感觉 输入 转化 成 更 有 效 的 析 因 码 (factorial code), 


换 句 话说 ， 在 输入 的 条 件 下 使 神经 元 输出 统计 独立 。 

受 Barlow 假设 的 启发 ，Atick and Redlich(1990) 提出 把 最 小 宛 余 原则 作为 如 图 10. 5 所 示 
的 感知 系统 的 信息 论 模 型 的 基础 。 系 统 由 三 
个 部 分 组 成 : 输入 通道 、 重 编码 系统 和 输出 
通道 。 输 入 通道 的 输出 可 以 表示 为 : s 

X=S-+N, 
HPS 是 输入 通道 接收 到 的 理想 信号 ，N; 
假设 为 输入 中 所 有 噪声 的 源 。 随 后 信和 号 X 
被 线性 矩阵 算 子 A 变换 〈 重 编码 )， 然 后 通 


过 g D > » + 和， ` Y, 图 10. 5 感知 系统 模型 。 信号 向 量 s 和 噪声 向 量 vw Aly, 
eee 产生 输出 分 别 是 随机 向 量 S$，N; AUN, 的 值 





输出 通道 
《视觉 神经 》 


Y = AX-+N, 
EFN, 表示 后 编码 本 身 的 噪声 。 在 Atick 和 Redlich 的 方法 中 ， 观 察 到 达 视 网 膜 的 光 信 号 包含 
一 些 非常 有 用 的 高 完 余 形式 的 感觉 信息 。 进 一 步 假设 在 信号 沿 视 觉 神经 发 送 以 前 视网膜 信号 处 
理 的 目的 就 是 减少 或 消除 由 于 关联 性 和 噪声 所 带 来 的 数据 元 余 。 为 了 量化 描述 这 种 观点 ， 宛 余 
度 度量 定义 如 下 : 


(10. 61) 





其 中 ICY;:S) 是 Y 和 S 之 间 的 互信 息 ，C(CY) 是 视 党 神经 〈 输 出 通道 ) 的 信道 容量 。 式 (10. 61) 
的 合理 性 基于 人 脑 感 兴趣 的 信息 是 理想 的 输入 信号 S$， 但 是 信息 必须 经 过 的 物理 信道 实际 上 是 
视觉 神经 。 假 设 在 感知 系统 完成 的 输入 与 输出 映射 之 间 没 有 维 数 减少 ， 这 意味 着 CCY) > ICY; 
S)。 要 求 找到 一 个 输入 -输出 映射 〈( 即 矩 阵 A) 使 元 余 度 度量 R 达到 最 小 且 满 足 不 丢失 信息 的 约 
束 ， 可 以 表示 为 
ICY;X) = ICX;X) 一 6E 

其 中 e 是 一 些 很 小 的 正 参 数 。 式 (10. 61) 中 信道 容量 C(Y) 定 义 为 保持 平均 输入 能 量 固定 的 条 件 
下 对 所 有 应 用 于 它 的 输入 的 概率 分 布 ， 可 能 流 过 视觉 神经 的 最 大 信息 率 。 

当 信 和 号 向 量 S$ 和 输出 向 量 Y 有 相同 的 维 数 和 系统 存在 噪声 时 ， 最 小 宛 余 度 原则 和 最 大 互信 
息 原 则 数学 上 是 等 价 的 ， 只 要 假设 在 两 种 情况 下 输出 神经 元 计算 能 力 的 约束 相同 。 具 体 地 ， 假 
设 根据 图 10. 5 的 模型 中 信道 容量 的 度量 取决 于 每 一 个 神经 元 输出 的 动态 范围 。 那 么 ， 根 据 最 
小 完 余 度 原 则 ， 对 于 一 个 给 定 的 允许 信息 丢失 ， 以 及 从 而 对 于 一 个 给 定 的 TY;S) ， 需 要 最 小 
化 的 量 定 义 为 : 


I(Y;S) 


I~ CY 
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因此 ， 对 于 参数 4， 这 样 最 小 化 的 量 本 质 上 为 


Fi(Y;S) = C(Y) 一 MTCY;S) (10. 62) 
另 一 方面 ， 根 据 最 大 互信 息 原 则 ， 在 图 10. 5 的 模型 中 需要 最 大 化 的 量 为 : 
F,(Y¥Y;S) = 1(Y;S) +aC(y) (10. 63) 


EBSA PRP F (YOM FYODOR, (AE OR PE RR ET ABE B 
日 乘 子 法 的 公式 ， 仅 仅 是 I(Y;$S) 和 CC(Y) 简 单 地 互 扫 了 角色 。 

从 这 些 讨论 中 注意 到 这 样 一 个 重要 的 观点 : 虽然 公式 不 同 ,但 是 这 两 个 信息 论 的 原则 产生 
相似 的 结果 ”: 

一 个 神经 系统 输出 和 输入 之 间 的 互信 息 的 最 大 化 确实 可 以 导致 宛 余 前 减 。 


10. 10 ”空间 相干 特征 


在 10. 8 节 中 提出 的 最 大 互信 息 原 则 ， 主 要 应 用 于 如 图 10. 2a 所 示 的 情况 下 ， 神 经 系统 的 
输出 向 量 Y 和 输入 向 量 X 之 间 的 互信 息 ICY;X) 作 为 一 个 求 最 大 值 的 目标 函数 。 在 术语 上 作 适 
当 改 变 ， 我 们 可 以 将 其 扩展 到 自然 景物 图 像 的 无 监督 处 理 中 (Becker and Hinton, 1992), — 
个 未 处 理 的 图 像 的 像素 ， 虽 然 形式 很 复杂 ， 但 是 包含 我 们 感 兴趣 的 景物 的 丰富 信息 。 特 别 是 ， 
每 个 像素 的 密集 度 受 内 在 参数 的 影响 ， 例 如 深度 、 反 射 、 表 面 方 向 和 背景 噪声 以 及 照明 度 。 目 
的 就 是 设计 一 个 自 组 织 系 统 ， 能 够 学 习 将 这 种 复杂 的 信息 编码 成 一 种 简单 的 形式 。 更 具体 一 
点 ， 目标 就 是 从 这 个 图 像 中 提取 能 够 展现 该 图 像 空 间 相 干 的 高 阶 特征 ， 使 得 在 图 像 的 空间 局 部 
区 域 的 信息 表示 很 容易 产生 邻近 区 域 的 信息 表示 ; 区 域 是 指 图 像 中 的 一 组 像素 的 集合 。 这 里 描 
述 的 情况 属于 图 10. 2b 的 场景 。 

因此 我 们 可 以 将 Imax 原则 的 情况 2 说 明 如 下 (Becker，1996; Becker and Hinton，1992): 


BAAEX, 和 %( 代 表 一 个 神经 系统 相 邻 的 无 重合 的 图 像 区 域 》 的 变换 应 该 如 此 选择 ， 使 得 输 
AX, 对 应 的 标量 输出 Y, 最 大 化 输入 Xo 对 应 的 标量 输出 Y, 的 信息 ， 反 之 亦 然 。 最 大 化 的 目标 函数 
就 是 输出 人 fo Y, 之 间 的 互信 息 IVY). 

尽管 Imax 原则 并 不 和 最 大 互信 息 原则 相等 价 或 能 够 从 其 推导 出 来 ， 但 它 必定 按 相似 的 思 
想起 作用 。 

例 8 相干 图 像 处 理 

考虑 图 10. 6 所 示 的 例子 ， 有 两 个 神经 网 络 (模型 ) a 和 5， 分 别 接 受 输入 为 X 和 X,， 来 
自 同一 图 像 中 相 邻 的 不 重 琶 区域， 各 自 的 标量 输出 分 别 是 Y。 MY, SRY. MY, 中 共同 
信和 号 分 量 ， 它 是 原始 图 像 的 两 个 相关 区 域 的 空间 相干 性 的 表示 。 我 们 可 以 将 Y 和 YY 看 成 共同 
信和 号 S 的 带 噪声 形式 ， 表 示 为 ， 

Y, =S+4+N, 
和 





Y, = S+N, 
N, A N, 是 加 性 噪声 分 量 ， 假 设 为 统计 独立 的 零 均 值 高 斯 分 布 随机 变量 。 信 号 分 量 S 也 假设 
为 高 斯 分 布 的 。 根 据 这 两 个 式 子 ， 在 图 10. 6 中 假设 模块 Alb 彼此 相 容 。 
利用 式 (10. 32) 的 最 后 一 行 ，Y。 和 YY; 的 互信 息 定义 为 : 
ICY, 3¥,) = ACY,) HRY) — ACY ,Y,) (10. 64) 
RERO DHAR, FF RAL I. Y. GT YL) H: 


ACY.) = ATi + log(2not) (10. 65) 
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最 大 化 互信 息 
1 (YY,) 





图 10.6 按照 Imax 原则 处 理 图 像 的 两 个 邻近 区 域 
其 中 中 BY. WH. MY, HH: 
mY.) = [1 + log(2noh)] (10. 66) 
HP of Æ Y, 的 方差 。 至 于 联合 微分 粹 (Ys ,Y,)， 利 用 式 (10.24) 得 
hY. iY) = 1+ log(2n) + Slog | det(x) | 


2X2 WEE D E Y, AY, 的 协 方差 矩阵 ， 定 义 为 : 
z= | o paaa | (10. 67) 


PaO ads Ob 
和 
det(Z) = oio (1 — pa) 
其 中 ps 是 Y, AY, 的 相关 系数 ; 也 就 是 
ow = ELY, — ELY, D (Y, — EY, D] 


Oae 





所 以 可 以 重 写 Y MY, 的 联合 微分 焙 为 : 


A(Y,sY,) = 1+ log(2x) 十 二 log[aso3(1 — 68,91 (10. 68) 

将 式 (10. 65) 、 式 (10. 66) 和 式 (10. 68) 代 人 式 (10. 64) ， 并 简化 得 
I(¥.s¥,) =— Flog ~ pis) (10. 69) 
由 式 (10. 69) 立 即 推出 ， 最 大 化 互信 息 ICY ;Y,) 等 价 于 最 大 化 相关 系数 os 。 这 从 直观 上 看 也 是 
满足 的 。 注 意 ， 由 ps 的 定义 知 ，|ps | 去 1。 


式 (10. 69) 的 结果 是 由 图 10. 6 的 随机 系统 的 输出 产生 的 两 个 随机 变量 Y. 和 YY 的 例子 推导 

的 ， 这 两 者 都 被 假设 为 高 斯 分 布 。 然 而 ， 在 更 一 般 的 非 高 斯 分 布 情形 下 ， 相 关系 数 pw 的 利用 

不 能 作为 Imax 原则 的 合适 测量 。 为 了 一 般 化 Imax 的 运用 ， 我 们 提出 由 式 (10. 50) 的 公式 启发 

的 系 词 的 运用 。 具 体 地 ， 考 虑 图 10. 2b 的 情形 。 令 W 为 响应 于 产生 输出 Y, MY, 的 系统 的 权 

HAS, MY MY, 分 别 响应 于 对 应 的 输入 向 量 X, 和 X% 的 组 合影 响 。 然 后 利用 式 (10. 50) 的 
第 一 行 来 形成 Imax 原则 的 简化 : 

maxl(Y, ;Y, = minhe (U, ,Us ; W) (10. 70) 


其 中 ， 根 据 相 关 的 累积 概率 分 布 ， 得 出 : 
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us = Py,(y,) 
和 
us = Pys Cy) 
H heU. Us W) 是 随机 变量 U。 和 Us RGR, AMAA x。 和 ws。 等 价 地 ， 根 
据 式 (10. 50) 的 第 二 行 ， 也 可 以 写成 ; 
maxI(Y,;¥,) = max ELlogco u, (ua sues W) J (10. 71) 
其 中 cu u, Casus W) 是 随机 变量 U, MU, 的 系 词 的 联合 概率 密度 函数 。 式 (10. 71) 的 公式 包含 
了 式 (10. 69) 的 结果 作为 一 个 特例 ， 这 一 公式 的 重要 性 将 在 本 章 后 面 讲述 。 
Imax 和 标准 相关 分 析 之 间 的 关系 
再 次 考虑 两 个 输入 向 量 X。 和 X,， 他 们 不 必 有 相同 的 维 数 。 相 应 的 有 两 个 权 GE) 向 量 w。 
Al w， 他 们 和 对 应 的 X. AX, 具有 相同 的 维 数 。 统 计 中 常用 的 标准 相关 分 析 (canonical corre- 
lation analysis (CCA) ) 的 目的 就 是 指 找到 两 个 线性 组 合 
Y, = wX. 
和 
Y, = wi X, 
使 它们 之 间 的 关联 性 最 大 。 将 这 里 的 问题 和 Imax 相 比 较 ， 我 们 可 以 看 到 实际 上 Imax 是 CCA 
的 非 线性 副本 。 对 于 更 详细 的 CCA 的 说 明 ， 读 者 可 以 参考 注释 和 参考 中 的 注释 8。 


10.11 ”空间 非 相干 特征 


在 前 面 一 节 里 我 们 讨论 了 一 个 无 监督 的 图 像 处 理 过 程 ， 它 从 一 个 图 像 中 提取 空间 相干 特 
征 。 现 在 我 们 将 讨论 与 那里 相反 的 问题 。 具 体 地 说 ， 考 虑 图 10. 2c， 其 中 目的 是 增强 从 两 个 不 
同 图 像 中 抽取 相应 区 域 的 空间 差异 。 在 图 10. 2b 中 ， 我 们 是 求 模 块 输出 间 的 互信 息 最 大 化 ， 在 
图 10. 2c 中 我 们 做 相反 的 工作 。 

因此 我 们 可 以 将 情况 3 的 Imin 原则 ?陈述 如 下 CUkrainec and Haykin, 1992, 1996): 


从 两 幅 不 同 图 像 对 应 的 区 域 得 到 的 数据 作为 两 个 输入 向 量 义 和 XX,， 神 经 系统 对 它们 的 变 
换 的 选择 应 该 使 得 输入 X, 对 应 的 系统 标量 输出 了 .关于 输入 X, 对 应 的 系统 标量 输出 Ye 信息 最 
小 ， 反 之 亦 然 。 最 小 化 的 目标 函数 是 输出 Y。 HY, 之 间 的 互信 息 T(Y,。;Y,)。 


案例 研究 : 雷达 偏振 测定 

例如 ，Imin 原则 可 以 在 雷达 偏振 测定 (radar polarimetry) 方面 有 所 应 用 。 雷达 监视 系统 
产生 一 对 我 们 感 兴趣 的 环境 的 图 像 ， 利 用 在 一 个 偏振 方向 上 传送 ， 在 相同 或 不 同 偏振 方向 接收 
得 到 反 向 散射 。 偏 振 可 以 在 垂直 方向 ， 也 可 以 在 水 平方 向 上 上。 例如， 我 们 可 能 有 两 幅 雷 达 图 
像 ， 一 幅 图 像 代 表 相 同方 向 〈 水 平 -水 平 ) 的 偏振 ， 而 另 一 幅 为 交叉 方向 〈 水 平 发 送 -垂直 接 
受 ) 的 偏振 。 这 样 的 应 用 由 Ukrainec and Haykin(1992, 1996) 提出 ， 属 于 在 一 个 双 偏 振 雷 达 
系统 中 的 偏振 目标 增强 。 研 究 中 雷达 景物 的 采样 描述 如 下 。 在 一 个 非 相 干 雷达 以 水 平 偏振 方式 
传播 ， 在 垂直 和 水 平 偏振 频道 接收 雷达 返回 。 感 兴趣 的 目标 就 是 设计 一 个 协 件 偏 振 捏 曲 反射 器 
来 将 偶然 偏振 旋转 90 度 。 在 普通 的 雷达 系统 操作 中 ， 这 样 一 个 目标 的 探测 是 非常 困难 的 ， 既 
因为 雷达 系统 的 缺陷 也 因为 地 面目 标 会 发 生意 想不到 的 偏振 ， 并 反射 回来 产生 杂 波 〈clutter) 。 
我 们 发 现 需要 用 一 个 非 线性 映射 来 解释 普通 雷达 返回 结果 的 非 高 斯 分 布 。 目 标 增强 问题 变 为 涉 
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及 约束 二 次 函数 最 小 化 的 求解 问题 。 最 终结 果 是 一 个 处 理 后 的 交叉 偏振 图 像 ， 它 在 目标 可 见 度 
方面 表现 出 极 大 的 提高 ， 而 且 远 比 我 们 应 用 诸如 主 分 量 分 析 之 类 的 线性 技术 得 到 的 效果 要 好 得 
多 。 因 为 模型 无 关 的 概率 密度 了 洱 数 估计 是 一 个 计算 量 非常 大 的 工作 ， 所 以 Ukraire 和 Haykin 
提出 的 模型 对 变换 后 的 数据 假设 是 高 斯 统计 分 布 的 。 两 个 高 斯 变量 了 AY, 的 互信 息 由 式 
(10. 69) 定 义 。 为 了 学 习 两 个 模型 的 突 触 权 值 ， 采 用 了 变通 的 方法 。 要求 是 抑制 雷达 杂 波 ， 对 
水 平 偏 振 和 垂直 偏振 的 雷达 图 像 这 是 常见 的 。 为 了 满足 该 要 求 ， 最 小 化 互信 息 I(Y。;Y,)， 满 
足下 面 加 在 权 值 向 量 上 的 约束 条 件 : 
C= (rlw'w] — 1) 
其 中 WERK ARBAR., tri. IES ARR. WR 
V ICY.: Ya) HAVC = O0 (10. 72) 

成 立 ， 我 们 可 以 得 到 一 个 稳定 点 ， 其 中 ) 是 拉 格 朗 日 乘 子 。 利 用 拟 和 牛顿 最 优化 程序 寻找 最 小 
值 。 在 第 3 章 和 第 4 章 中 讨论 过 拟 牛 顿 方法 。 

图 10.7 显示 Ukrairec and Haykin(1992，1996) 所 用 的 神经 网 络 结构 。 对 每 个 模型 选择 一 个 
高 斯 径 向 基 函 数 网 络 〈RBF) ， 这 是 因为 它 可 以 提供 一 系列 的 固定 基 函 数 的 好 处 〈 即 有 一 个 非 自 
适应 隐藏 层 )。 输 入 数据 在 基 范 数 上 展开 ， 然 后 通过 线性 权 值 层 相 结 合 ; 在 图 10.7 中 的 虚线 代表 
两 个 模块 间 的 交叉 耦合 连接 。 高 斯 函数 的 中 心 在 区 间 内 均匀 选择 以 便 能 完整 覆盖 全 部 输入 区 域 ， 
它们 的 宽度 选择 应 用 启发 式 规则 。 图 10. 8a 显示 一 个 在 安大略 湖岸 边 的 一 个 公园 的 水 平 极 化 和 垂 
直 极 化 的 雷达 图 像 。 每 一 幅 图 像 的 范围 坐标 是 沿 水 平 轴 的 ， 从 左 到 右 递增 ; 方位 角 坐 标 沿 垂直 
轴 。 图 10. 8b 显示 采用 最 小 化 水 平 极 化 和 垂直 极 化 的 雷达 图 像 的 互信 息 的 组 合 图 像 。 一 个 非常 清 
晰 的 亮点 在 图 像 中 可 以 看 出 来 ， 它 是 根据 雷达 从 放 在 湖 边 的 一 个 协作 偏振 扭曲 反射 器 返回 的 。 这 
里 所 讨论 的 例子 说 明了 将 Imin 原则 应 用 于 处 理 空间 非 相 干 图 像 的 实际 好 处 ”。 








类 偏振 (水 平一 水平》 
雷达 输入 


yi 最 小 化 互信 息 
Ae 7 (Y,Y,) 


X, 


交叉 偏振 水 平一 一 垂直 ) 
雷达 输入 


Fe SES Fy HE HK 


图 10.7 神经 处 理 器 框图 ， 其 目标 是 利用 一 对 偏振 测定 的 非 相 于 雷达 输入 抑制 背 
景 杂 波 ， 杂 波 抑制 由 最 小 化 两 个 模型 输出 的 互信 息 来 达到 
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a) 未 处 理 的 -扫描 雷达 图 像 〈 方 位 角 和 范围 对 比 ，， 水 平 -水 平 偏振 “上 〉 和 水 平 -垂直 〈 下 ) 偏振 


一 反射 器 





b) 最 小 化 a 部 分 的 两 幅 偏 振 雷 达 图 像 之 间 的 互信 息 ， 计算 得 出 的 合成 图 像 
图 10.8 Imin 原则 应 用 于 雷达 偏振 


Imax 和 Imin 原则 的 推广 

在 10. 10 节 中 构成 Imax 原则 以 及 本 节 中 构成 Imin 原则 中 ， 我 们 论述 了 对 于 一 对 输出 终端 的 
互信 息 Y.Y) 进行 最 大 化 或 者 最 小 化 。Imax 和 Imin 原则 都 可 以 被 推广 到 多 个 终端 的 情形 ， 其 
输出 为 Y,,Y; ,Y.,…, 相应 地 通过 最 大 化 或 者 最 小 化 多 元 互信 息 ICY. ;Y, ;Y. ;…) 来 做 。 


10.12 独立 分 量 分 析 


现在 我 们 将 注意 力 集中 在 由 图 10. 2d 描述 的 最 后 一 种 情况 。 为 了 使 那里 陈述 的 信号 处 理 问 
题 更 加 具体 化 ， 考 虑 图 10. 9 的 方 框图 。 操 作 从 一 -个 随机 源 向 量 S 开始 ， 其 定义 为 
S= CS; So ,°° + od 
爸 成 S 的 m 个 随机 变量 的 样本 值 分 别 记 为 51,s;，… ,ss 。 随 机 源 向 量 $ 被 作用 于 一 个 混合 器 
(mixer)， 其 输入 输出 之 间 的 关系 由 一 个 非 奇 异 的 mXm 的 称 为 混合 矩阵 的 A 决定 。 由 源 向 量 
S 构成 的 线性 系统 和 混合 器 A 对 于 观测 者 是 完全 未 知 的。 系统 的 输出 由 如 下 的 随机 向 量 定义 : 


X= AS= >)aS， (10. 73) 


其 中 a, 是 混合 矩阵 A 的 第 i 个 列 向 量 ，S, 是 由 第 i 个 源 产 生 的 随机 信号 ,i 二 1,2,…, m。 随 机 
向 量 X 相应 地 记 为 
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X= CX Xost Xn]? 
X; 的 样本 值 记 为 zi ， 其 中 了 一 1,2，…za 。 

ACO. 73) 所 述 的 模型 称 为 生成 模型 〈generative model) ， 是 在 其 负责 生成 随机 变量 X., 
Xe Xn 的 意义 上 而 言 的 。 相 应 地 ， 组 成 源 向 量 S 的 随机 变量 S ,S:,…，,S。 被 称 为 潜在 变量 ， 
意思 是 他 们 不 能 被 直接 观察 。 

Ha? SAS" 

图 10.9 的 方 框图 包含 一 个 分 离 器 ， 由 mXm 分 离 矩 阵 W 来 表示 。 响 应 于 观测 向 量 X， 分 
离 器 产生 一 个 由 下 面 的 随机 向 量 定义 的 本 
输出 : 











Y= WX 
根据 此 我 们 现在 可 以 给 出 如 下 声明 : 


给 定 由 潜在 〔 源 ) 变量 SSS, rs 
Bf) He do BP AF BO WL A vey HX AK 图 10.9 用 于 解 盲 源 分 离 问 题 的 处 理 器 方 框图 。 向 量 s， 
LEMS, HUD BBE W 使 得 得 到 的 x Aly 是 相应 的 随机 向 量 S，X 和 的 什 
输出 向 量 YY 的 分 量 尽 可 能 地 统计 独立 ; 这 里 ， 术 语 “ 独 立 ”应 该 被 理解 为 其 强烈 的 统计 意义 。 


这 一 声明 说 明了 育 源 分 离 问 题 的 本 质 。 这 个 问题 称 为 盲 的 是 为 了 强调 这 样 的 事实 : 对 于 分 
离 矩阵 W 的 估计 是 在 非 监 督 方式 下 进行 的 。 而 且 ， 用 于 恢复 原始 源 信息 $ 的 仅 有 信息 是 包含 
在 观测 向 量 X 中 的 。 这 种 包含 于 解 盲 源 分 离 (BSS) 问题 中 的 内 在 原则 被 称 为 独立 分 量 分 析 
(Comon，1994)。 独 立 分 量 分 析 CICA) WAVED BAH (PCA) 的 延伸 ， 他 们 有 如 下 基本 
上 的 不 同 : PCA 仅仅 强制 到 至 多 为 二 阶 独立 的 ， 而 且 向 量 的 方向 限制 为 正 交 的 ， 而 ICA 对 于 
输出 向 量 Y 的 所 有 单个 分 量 限 制 为 统计 独立 ， 并 且 没 有 正 交 性 的 限制 。 


基本 假设 


为 了 简化 主 分 量 分 析 的 研究 ， 我 们 做 下 面 的 四 个 基本 假设 : 

1. 统计 独立 性 。 构 成 源 向 量 S 的 潜在 变量 假设 为 统计 独立 的 。 然 而 ， 注 意 由 于 观测 向 量 X 
是 由 潜在 变量 的 线性 组 合 组 成 的 ， 因 此 观测 向 量 X 的 各 个 分 量 是 统计 相关 的 。 

2. 混合 矩阵 的 维 数 。 混 合 矩 阵 是 方 阵 ， 这 意味 着 观测 数 和 源 数 相同 。 

3. 无 噪 模型 。 假 设 生成 模型 为 无 噪 的 ， 这 意味 着 在 模型 中 仅 有 的 随机 源 是 源 向 量 S, 

4. 零 均 值 。 假 设 源 向 量 S 具有 0 均值 ， 这 意味 着 观测 向 量 和 也 具有 0 均值。 如果 不 是 ， 
则 从 关中 减 去 均值 向 量 E[Xj 以 使 得 其 假设 为 0 均值 。 

有 时 候 另 一 个 假设 也 是 需要 的 : 

5. 和 白 嗓 化 。 假 设 观 测 向 量 被 “ 白 品 化 "。 这 意味 着 其 各 个 分 量 是 不 相关 的 ， 但 不 是 必须 独立 
的 。 白 噪 化 是 通过 对 观测 向 量 的 线性 变换 使 得 相关 和 矩阵 ELXX" 等 于 单位 矩阵 来 完成 的 。 

认识 到 解 BSS 问题 除了 对 于 每 个 源 输出 〈 即 潜在 变量 ) 的 估计 的 任意 拉 伸 和 置换 之 外 是 
可 行 的 这 一 点 也 是 重要 的 。 为 了 详细 说 明 ， 可 能 找到 一 个 分 离 矩阵 W， 其 各 行 是 混合 矩阵 A 
的 重新 拉 伸 和 置换 。 换 名 话说， 通过 ICA 算法 得 到 的 BSS 问题 的 解 可 以 表示 为 下 面 的 形式 : 

y = Wx = WAs = DPs 

其 中 DD 是 一 个 非 奇异 对 角 和 矩阵 ，P 是 置换 矩阵 ; s. x 和 y 是 相应 的 随机 向 量 S、X 和 YY 的 实现 。 
源 的 非 高 斯 性 : 可 能 除了 一 个 源 外 ， 这 对 ICA 是 必然 要 求 。 

为 了 ICA 算法 能 够 尽 可 能 地 在 分 离 器 输出 端 分 离 给 定 的 源 信号 集合 ， 需 要 对 于 由 生成 模 
型 的 输出 产生 的 观测 向 量 X 的 充分 信息 。 这 一 关键 问题 如 下 所 述 : 


i 输出 向 量 


y 
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观测 向 量 祥 中 的 信息 内 容 是 如 何 证 明 其 对 于 分 离 源 信号 是 可 行 的 ? 


我 们 将 通过 一 个 简单 但 有 洞察 力 的 例子 来 回答 这 个 基本 问题 。 
例 9 一 对 独立 源 的 两 个 不 同 特性 
考虑 包含 一 对 独立 随机 源 信号 S 和 S: 的 生成 模型 ， 这 两 者 都 具有 0- 均值 和 单位 方差 。 混 
合 和 矩阵 由 下 面 的 非 奇 异 矩 阵 定 义 : 
ofli 一 1 
A=|; z] 


该 例 包含 两 个 部 分 : 在 第 一 部 分 ， 两 个 源 都 是 高 斯 分 布 ; 在 第 二 部 分 ， 一 个 源 是 高 斯 分 布 ， 另 
一 个 是 一 致 分 布 。 , 

由 概率 理论 ， 我们 知道 下 面 的 高 斯 分 布 的 两 个 性 质 (Bertsekas and Tsitsiklis, 2002); 

1. 0 -均值 高 斯 随机 变量 的 高 阶 矩 都 是 均等 的 旦 由 方差 唯一 定义 〈 即 对 于 0 -均值 特例 的 二 
STF) 

2. 两 个 线性 拉 伸 〈 加 权 ) 高 斯 随机 变量 也 是 高 斯 型 。 

因而 就 有 当 两 个 源 信 号 S 和 S: 都 是 0 -均值 高 斯 型 时 ， 观 测 X, AX, 也 是 0 -均值 的 高 斯 
型 。 而 且 ， 对 于 规定 的 混合 矩阵 ，X 具有 方差 

(iyo 十 (一 1)?0o2 = 17, 
H Xs 具有 方差 

(1)2oi + OY o = 65, 
这 里 ， 中 一 1，c 一 16。 

图 10. 10a 画 出 了 源 信 号 S AS, 的 直方 图 ， 而 b 画 出 了 观测 X, M X: 的 相应 的 二 维 分 布 。 
检查 图 10. 10b， 我 们 发 现 二 维 分 布 是 关于 原点 对 称 的 ， 其 信息 内 容 对 于 在 原始 源 信号 S M S: 
的 各 个 方向 之 间 区 分 是 不 充分 的 。 

下 面 考虑 源 S 是 0 -均值 和 单位 方差 的 高 斯 分 布 ， 源 S: 是 区 间 [一 2，2] 上 的 一 致 分 布 。 
图 10. 11a MET S! AS, 的 直方 图 ，b 画 出 了 相应 的 观测 X MX 的 二 维 分 布 。 和 第 一 种 情 
形 的 图 10. 10b 相似 ， 图 10. 11b 的 二 维 分 布 关于 原点 对 称 。 然 而 ， 对 于 图 10. 11b 分 布 的 深入 
检查 揭示 了 两 个 特点 : 

L 高 斯 分 布 源 信号 Si: (无 限 支持 ) ， 沿 着 斜率 为 1 的 正 向 显示 。 

2. 均匀 分 布 源 信 和 号 S:( 无 限 支持 ) ， 沿 着 斜率 为 一 2 的 负 方 向 显示 。 

此 外 ， 这 两 个 斜率 与 混合 矩形 的 元 素 值 相关 。 

由 第 二 种 情况 得 到 的 结论 是 ， 观 测 X, ，Xs 的 二 维 分 布 包含 了 足够 的 方向 信息 ， 这 些 信息 
是 跟 源 信号 S, S 是 线性 可 分 有 关 的 。 这 个 非常 理想 的 条 件 ， 只 在 允许 单个 源 信号 有 高 斯 分 


布 时 才 出 现 。 E 
以 这 个 例子 的 结果 为 基础 ， 现 在 可 以 继续 回答 我 们 提出 的 基础 问题 ， 源 信号 在 分 离 器 输出 
的 可 行 的 可 分 性 。 


1. 观测 X,,X: ,…,X。 必须 具有 和 相应 的 二 阶 矩 不 相关 的 高 阶 矩 。 相 应 地 ， 源 信号 Si， 
Sz ,…，,S。 必须 是 非 高 斯 的 。 

2. 仅 有 一 个 源 被 允许 具有 高 斯 分 布 。 

作为 小 结 ， 源 分 离 的 必要 条 件 是 源 是 非 高 新 的 ， 混 合 矩阵 是 非 奇 异 的 ， 生 成 模型 必须 满足 
这 两 个 和 条件。 特别 地 ， 我 们 可 以 有 如 下 声明 (Cardoso, 2003): 

独立 分 量 分 析 ICA) 是 随机 向 量 分 解 为 尽 可 能 统计 独立 的 线性 分 量 ， 这 里 术语 “独立 ”理解 
为 强烈 的 统计 意义 ; ICA 超出 (二 阶 ) 了 去 相关 因此 需要 表示 数据 向 量 的 观测 是 非 高 斯 的 。 
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a) 两 个 过 程 的 直方 图 : 上 面 的 直方 图 表示 0- 均 值 和 方差 ci=1 的 高 斯 源 信号 S,; 
下 面 的 直方 图 表示 0- 均 值 和 方差 中 =16 的 高 斯 源 信号 9， 
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b) 线性 混合 信号 XX 和 X, 的 二 维 分 布 
图 10. 10 ”两 个 高 斯 分 布 过 程 




















a -3 -2 -1 0 1 2 3 4 


a) 两 个 过 程 的 直方 图 : 上 面 的 直方 图 表示 0- 均 值 和 方差 的 高 斯 源 信号 S13 
下 面 的 直方 图 表示 在 区 间 [-2,2] 上 一 致 分 布 的 源 信号 5， 


图 10.11 高 斯 和 一 致 分 布 过 程 
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x, 
h) 线性 混合 信号 如 和 2 的 二 维 分 布 
图 10.11 (4) 


ICA 算法 的 分 类 

现在 我 们 建立 了 线性 混合 源 信号 分 离 的 必要 条 件 ， 我 们 可 以 继续 给 出 两 个 概括 定义 的 ICA 算法 
家 族 : 

1. 根植 于 最 小 化 互信 息 的 ICA 算法 


最 小 化 图 10. 9 的 框图 中 分 离 器 输出 之 间 的 互信 息 为 ICA 算法 的 设计 提供 了 一 个 自然 的 基 
础 。ICA 算法 的 第 一 个 家 族 包含 如 下 : 

1.1 由 Amari 等 (1996) HKR, X-RAP. BILLER 10.14 中 讲述 。 

1.2 由 了 Pham 等 (1992) 提出 的 算法 ， 这 一 算法 基于 最 大 似 然 估计 。 这 一 算法 归于 贝 叶 
斯 理论 的 边缘 ， 其 忽略 了 先 验 信息 。 这 将 在 10. 15 节 讨 论 。 

1.3 由 Bell and Sejnowski(1995) 提 出 的 最 大 互信 息 (Infomax) HK, PETRAAA 
则 这 一 算法 在 10. 16 节 讲 述 。 在 Cardos(1997) 中 , 证 明了 Infomax 算法 和 最 大 似 然 估 计算 
法 等 价 。 

实际 上 上， 尽管 这 些 ICA 算法 的 形式 不 同 ， 但 它们 都 是 最 小 化 互信 息 的 基本 变形 。 

2. 根植 于 最 大 化 非 高 斯 性 的 ICA 算法 

算法 的 第 二 家 族 包 括 fastICA 算法 (Hyvarinen and Oja，1997) ， 它 利用 负 科 作为 非 高 斯 
型 的 测量 。 而 且 ， 这 一 算法 不 仅 代 表 了 它 这 一 类 ， 而 且 和 其 他 ICA 算法 相 比 计算 速度 更 快 。 
fastICA 在 10. 18 节 讨 论 。 

在 讨论 前 述 的 ICA 算法 之 前 ， 我 们 下 面 通过 考虑 自然 图 像 来 探索 ICA 的 信号 处 理 能 力 。 


10.13 自然 图 像 的 稀 朴 编码 以 及 与 ICA 编码 的 比较 


在 第 8 章 ， 我 们 强调 了 自然 图 像 高 阶 统计 的 重要 性 以 及 那些 统计 量 对 图 像 模型 化 的 影响 。 
在 本 节 中 ， 我 们 强调 自然 图 像 的 另 一 个 重要 特性 〈 名 为 稀疏 ) 以 及 捕 提 它 的 ICA 的 角色 。 在 
这 样 做 的 时 候 ， 我 们 给 出 了 ICA 在 实际 应 用 中 的 重要 性 。 

10. 9 节 讨 论 了 如 何 将 最 小 宛 余 准则 应 用 于 模型 化 视觉 系统 (Atick and Redlich, 1990), £ Dong 
and Atick(1995) 以 及 Dan 等 (1996) 中 ， 这 一 原则 的 应 用 延伸 到 去 看 视觉 系统 中 视网膜 神经 节 细胞 
的 性 质 是 如 何 通 过 白 品 化 或 者 去 相关 由 这 些 细胞 根据 自然 图 像 的 1/f 振幅 功率 谱 产 生 的 输出 集 来 解 
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释 的 。 随 后 ，Olshausen and Field(1997) 指出 Atick 和 合作 者 研究 的 模型 的 基本 局 限 : 那里 所 考虑 的 
减少 元 余 局 限于 自然 图 像 中 的 像素 中 的 线性 两 两 相关 ; 这 些 相关 可 由 PCA 捕获 。 然 而 ， 实 际 上 ， 自 
然 图 像 由 于 以 线 和 边 为 方向 展示 了 高 阶 相关 (尤其 弯曲 的 变种 ) 在 自然 图 像 中 是 普遍 存在 的 。 
在 Olshausen and Field(1997) 中 描述 了 一 个 概率 模型 用 于 捕捉 自然 图 像 中 的 高 阶 相关 结 
构 。 更 重要 的 是 ， 这 一 模型 是 用 基 喇 数 的 线性 重叠 来 描述 的 ， 如 下 所 示 : 
I) = Daigilx) (10. 74) 


其 中 向 量 x 记 二 维 图 像 ITCx) 中 的 离散 空间 位 置 ， 彤 Cx) 记 基 函 数 ，ai RRS. A 的 计算 值 
构成 了 编码 方案 的 输出 。 而 且 ， 基 函 数 被 选择 为 自 适应 的 ， 是 为 了 说 明 以 可 能 的 最 佳 方式 下 统 
计 独 立 事件 收集 的 观点 下 图 像 的 内 在 结构 。 因 此 ， 建 立 在 Field(1994) 的 工作 基础 之 上 ，Ofl- 
shausen and Field(1997) 作 了 如 下 的 推测 : 


稀疏 是 式 (10. 74) 中 混合 振幅 a; 的 合适 的 先 验 ， 式 (10.74) 是 基于 这 样 的 直觉 自然 图 像 
可 以 通过 相关 小 数目 的 结构 单元 来 描述 ， 这 样 的 结构 单元 由 边 、 线 以 及 其 他 基本 特征 来 例证 。 


为 了 验证 这 一 推测 ，Olshausen 和 Field 实现 了 下 面 的 两 个 任务 ， 

1. 构成 稀 朴 编码 算法 ， 目 的 是 最 大 化 根植 于 图 像 处 理 和 信息 论 的 血 朴 。 这 一 算法 设计 用 
来 学 习 图 像 模 型 的 基 函 数 集 合 ， 基 于 式 (10. 74) 的 图 像 模型 将 最 好 地 用 稀疏 、 统 计 独 立 分 量 的 
方式 说 明 自 然 图 像 。 已 经 证 明了 稀 玻 编码 算法 最 小 化 和 ICA 同样 的 目标 函数 ， 但 是 由 于 过 完 
备 表 示 引 入 的 难 解 性 需要 做 一 个 逼近 。 

2. 生成 数据 ， 从 10 个 512 X 512 像素 的 自然 环境 ORK. AA. KS) 图 像 中 取得 ; 
这 些 数据 用 于 训练 算法 。 





10.12 对 自然 图 像 应 用 稀 朴 编码 算法 的 结果 〈 这 个 图 的 复制 得 到 了 Bruno Olshausen 博士 的 允许 》 
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由 稀 玻 编码 算法 计算 得 到 的 一 个 稳定 解 通常 在 大 概 2 000 次 更 新 ( 即 大 概 20 000 次 图 像 表 
示 ) 后 获得 。 训 练 过 程 的 结果 在 图 10.12 中 给 出 ， 其 中 基 函 数 的 大 多 数 被 局 限 在 各 个 像素 中 。 
在 一 个 独立 的 研究 中 ，Bell and Sejnowski(1997) 将 ICA 应 用 到 包含 树木 、 树 叶 等 的 四 个 
自然 场景 中 ， 它 们 被 转换 为 灰 值 图 像 ， 其 值 在 0 到 255 的 范围 内 。 将 在 10. 16 节 介 绍 的 ICA 的 
Infomax 算法 ， 在 这 一 研究 中 被 使 用 。 其 结果 在 图 10. 13 中 给 出 。 





图 10. 13 对 另 一 个 自然 图 像 应 用 ICA 的 Infomax 算法 的 结果 〈 这 个 图 的 复制 得 到 了 Anthony Bell 博士 的 允许 ) 


比较 图 10. 12 中 利用 稀 玖 编码 算法 的 解 和 图 10. 13 中 利用 ICA 的 Infomax 算法 的 解 ， 值 得 
关注 的 是 这 两 个 解 有 多 么 相似 。 当 我 们 认识 到 完全 不 同 的 自然 图 像 被 用 于 独立 地 训练 这 两 个 算 
法 时 相似 性 是 所 有 更 值得 注意 的 。 

这 两 个 完全 独立 的 研究 告诉 我 们 下 面 两 个 重要 的 教训 : 

1. 自然 图 像 是 内 在 稀疏 的 ， 它 们 可 以 通过 相关 的 小 数目 的 不 同 结构 单 元 来 描述 ， 其 例子 
包括 边 和 线 。 

2. 最 基本 的 是 ， 独 立 分 量 分 析 的 算法 具有 捕捉 这 些 结构 单元 的 内 在 能 力 。 

因此 ， 图 10. 12 和 图 10. 13 的 结果 给 了 我 们 研究 ICA 学 习 算 法 的 动机 ， 我 们 将 在 下 面 的 四 


个 小 节 里 面 实现 这 一 点 。 
10.14 独立 分 量 分 析 的 自然 梯度 学 习 


考虑 输入 -输出 关系 
Y= Wx (10. 75) 


这 里 随机 向 量 X 记 观测 〈 即 分 离 器 输入 ) ，W 记分 离 矩阵 ， 随 机 变量 立 记 结果 响应 〈 即 分 离 器 
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输出 ) 。 将 输出 Y 的 各 个 分 量 中 的 统计 独立 作为 盲 源 分 离 的 期 望 性 质 ， 我 们 能 采用 什么 样 的 实 
际 测量 来 实现 该 性 质 呢 ?为 了 对 这 一 基础 问题 的 回答 作 准 备 ， 令 py(y,W) 记 输出 Y 的 概率 密 
度 函 数 ， 其 参数 为 分 离 矩阵 W， 令 相应 的 析 因 分 布 定义 为 


bry) = [I by, Cw (10. 76) 


其 中 py (yi) 是 随机 变量 Y.( 即 Y 的 第 i 个 分 量 ) 的 边缘 概率 密度 函数 ; 基于 明显 的 理由 ， 析 因 分 布 

Py ly) 是 非 参 数 的 。 实 际 上 ， 式 (10. 76) 可 以 看 成 学 习 规 则 (将 要 说 明 的 ) 的 约束 ， 迫 使 其 将 py Cy, 

_WD 和 析 因 分 布 Py (y) 对 比 ， 理 想 情 况 下 ， 它 将 和 原始 源 相 匹配 。 在 我 们 的 配置 下 ， 集 中 于 作为 仅 有 

的 两 个 分 布 的 分 布 py Cy, WON Py(y)， 我 们 现在 可 以 给 出 我 们 问题 的 答案 ， 这 隐 舍 在 ICA 的 原则 里 : 

给 定 一 个 mX1 的 随机 向 量 义 来 表示 m 个 独立 信号 源 的 线性 组 合 ， 通 过 这 样 的 方法 将 观测 向 量 

X 转换 到 新 的 随机 向 量 Y， 对 未 知 参 数 抵 阵 W 最 小 化 参数 概率 密度 函数 py(y，W) 和 相应 的 析 因 分 
A 加 (y) 之 间 的 相对 炳 。 

从 这 一 声明 中 可 知 ，、 很 清楚 相对 炉 是 期 望 反差 函数 的 自然 基 ， 其 形成 构成 了 ICA 学 习 算 法 推导 
的 最 开始 一 步 。 作 为 ICA 的 未 知人 参数 的 分 离 矩 阵 W， 期 望 反差 函数 是 W 的 函数 。 从 现在 开始 ,我 
们 用 RCW) 来 记 反 差 函 数 ， 根 据 式 (10. 3958-7 A TT, BEER WA ROW) 的 正式 定义 : 
py Cy» W) 
Tl, Cy) 

关于 这 一 公式 真正 值得 注意 的 是 : 它 作为 令 人 鼓舞 的 框架 被 用 于 推导 ICA 和 育 源 分 离 相 关 文 
献 中 提案 的 多 个 学 习 算法 (Cichocki and Amari，2002) 。 

根据 10. 5 节 对 于 相对 灼 讨论 ， 我 们 可 以 以 我 们 配置 的 两 个 精 的 方式 重新 构造 期 望 反 差 
函数 RCW), MFM: 


RCW) = | py (y, W)log dy (10. 77) 








RCW) =— ACY) 十 JACY) (10. 78) 


这 里 h(Y) 是 分 离 器 输出 端 即 向 量 Y HO, ACY EY 的 第 i 个 元 素 的 边缘 粹 。RCW) 是 用 于 对 
W 最 小 化 的 目标 函数 。 
Ph St RR h(Y) 的 确定 
输出 向 量 Y 与 式 (10. 75) 和 输入 向 量 X 相关， 这 里 W 是 分 离 矩阵 。 根 据 式 (10. 18)， 可 以 
H Y AGS Ze A TF : 
hCY) = ACWX) = A(X) + log | detCW) | (10. 79) 
HACK) X 的 微分 精 ，detC(W) 是 W 的 行列 式 。 将 这 一 表达 式 用 于 式 (10.77)， 可 以 再 一 次 
重新 构造 期 望 反差 函数 
RCW) =— h(X) 一 logldetCW) |+ SAM) 
m (10. 80) 
=— h(X) — log | det(W) |— >) ELlogdy (y)] 
这 里 ， 对 于 方程 第 二 行 最 右 端 项 ， 利 用 式 (10.10) 以 及 对 YY 的 期 望 。 EAR AO EF 
分 离 矩阵 W 的 ; 从 此 以 后 ， 在 推导 ICA 的 学 习 算 法 时 我 们 忽略 这 一 项 。 
ICA 随机 梯度 算法 的 推导 
带 着 随机 梯度 下 降 的 思想 ， 实际 上 通常 的 做 法 是 包 路 期 户 算 子 E 并 仅仅 集中 注意 力 于 朋 时 
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值 。 对 于 手头 的 问题 ， 仅 有 一 个 需要 考虑 的 瞬时 值 ， 即 py Cy). $ oC(W) 记 期 望 反差 函数 
R(LW)， 从 此 之 后 我 们 将 之 简单 称 为 反差 函数 (contrast function), Bp 
RCW) = E[p(W)] 
因此 ， 忽 略 粹 h(X)， 我 们 可 以 利用 式 (10. 80) 来 写 : 
pW) —— log| det(W) |— DlogBy 9) (10. 81) 
随机 梯度 矩阵 定义 为 ， 
VCW) = 一 区 loglderCw)| 一 Sw 2 logBy cy) (10. 82) 
其 中 V 为 对 分 离 矩 阵 W 的 梯度 算 子 。 这 一 梯度 矩阵 的 两 个 部 分 被 分 别 考虑 : 
1. 第 一 个 部 分 定义 为 
=< log | det(W) |= WwW” (10. 83) 
其 中 We W WREE. 
2. 随机 梯度 矩阵 的 第 二 个 部 分 的 第 ; 个 分 量 定 义 为 
2 logby (y) = oo jy lowe, Cy.) (10. 84) 
其 中 w 是 分 离 矩 阵 W 的 第 i 个 列 向 量 ，y; 是 输出 向 量 Y; 的 样本 值 。 因 此 ， 取 式 (10.75) 第 i 
个 分 量 的 样本 值 ， 我 们 有 





Xi 7 wix,z = 1,2," m (10. 85) 
HP x EMAKE XKR, y: BY, 的 样本 值 。 对 w; 微分 式 (10. 85), HB: 
Oy: 一 
Bw, x (10. 86) 
而 且 ， 
fa] > ] ð ~ By. Cyi) 
二 一 ! Cy) = 一 一 一 一 br Od = (10. 87) 
ay, PY Pr, (yi) ayer? By, OD 
其 中 偏 导 数 


by (yi) = 5 be (yi) 
在 所 讨论 的 这 一 点 ， 我 们 发 现 为 构造 分 离 器 而 引入 激活 函数 p 是 便利 的 ;具体 来 说 ， 我 们 定义 





Py. Cy:) 
i ( D 一 ”二 - 一 2 (10. 88) 
and by m 
相应 地 ， 将 式 (10. 85) 代 人 式 (10. 88), 48): 
so logby (yi) 一 一 gi (y:)X,i = 1,2,° ,7m (10. 89) 
由 这 一 表达 式 ， 我们 可 以 将 式 (10. 82) 中 随机 梯度 矩阵 的 和 项 部 分 表示 为 : 
-2 D logBy, WD = (xT =— x0" (10. 90) 


其 中 激活 函数 向 量 表示 为 输出 向 量 y 的 函数 ， 
中 (y) = Epi Cy1) spe Cyn) s s pm Cn) J” 
下 面 将 式 (10. 83) 和 式 (10. 90) 代 入 式 (10. 82) ， 得 到 需要 的 随机 梯度 矩阵 : 
V p(W) =— W +o)" (10. 91) 
现在 ， 令 1 记 学 习 率 参数 ， 假 设 为 一 个 小 的 正常 数 。 然 后 ， 给 定式 (10. 91) 的 梯度 矩阵 ， 
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对 于 分 离 矩 阵 的 增 量 调整 是 : 
AW =— 7Vp(W) 一 7[W 一 中 yx (10. 92) 
由 于 立刻 将 变 得 明显 的 原因 ， 我 们 发 现 通 过 首先 转 置式 (10. 85) 来 重新 构造 (10. 92) 是 便利 的 ， 这 产生 
y7 = x WT 
因此 ， 可 以 重 写 式 (10. 92) 为 下 面 的 新 的 等 价 形式 : 
AW = gI gy)x WW = 1—q(y)y WwW 7] (10. 93) 
其 中 工 是 单位 矩阵 。 相 应 地 ， 更 新 分 离 矩阵 的 在 线 学 习 规则 有 如 下 的 形式 : 
Win +1) = Win) + a(n) (I= Pyy Cn) JW Cn) (10. 94) 
校正 项 


其 中 参数 都 用 其 随时 间 变 化 的 形式 来 表示 。 
这 一 算法 不 良 的 性 质 是 通过 对 权重 矩阵 W 的 转 置 的 逆 对 调整 项 的 后 乘 。 我们 下 一 个 任务 
是 找到 一 个 方法 来 消去 逆 的 计算 。 
等 变异 性 质 
ICA 算法 的 目的 是 更 新 分 离 矩 阵 Wa) 使 得 输出 向 量 
y(n) = WW) x(n) = Wn) As(n) 
尽 可 能 地 在 某 种 统计 意义 下 和 原始 源 信号 s(n) 相近 。 更 具体 来 说 ， 考 虑 由 系统 矩阵 CO) Ae 
的 全 局 系统 ，C(n) 是 通过 将 混合 矩阵 A 和 分 离 矩 阵 W(z) 相 乘 而 得 到 的 ， 即 
Ci) = WDA (10. 95) 
理想 情况 下 ， 这 一 全 局 系统 满足 两 个 条件 : 
1. 调整 CCn) 的 算法 收敛 到 等 于 交换 矩阵 的 最 优 值 。( 注 意 ， 一 个 有 符号 交换 矩阵 ， 在 每 一 
行 和 列 仅 有 一 次 十 1 或 一 1， 也 是 最 优 的 。) 
2. 这 一 算法 的 自身 描述 为 : 
Cnt 1) = Ca) + ym GCC) s(n) CC) (10. 96) 
其 中 G(C(n)s(n)) BER CO) s(n) HEF BR. AER RRR CCn) 完 全 
刻画 的 ， 而 不 是 由 混合 矩阵 A 以 及 分 离 矩阵 Wo) 的 各 个 值 刻 画 。 这 样 的 自 适应 系统 称 之 为 
等 变异 (equivariant) (Cardoso and Laheld, 1996), 
RO 94) 的 在 线 学 习 算 法 当然 能 够 近似 满足 第 一 个 条 件 。 然 而 ， 如 其 所 表明 的 ， 它 不 能 满足 第 
二 个 条 件 。 为 了 说 明确 实 如 此 ， 我 们 用 混合 矩阵 ARER. 94) ， 然 后 利用 式 (10. IRE: 
Cín 十 1) = Cian) 十 PDGD SWT A (10. 97) 
其 中 
GCC(Cz)s(a) ) = I— OC C(n) s(n) ) (CC) s(n) 7) (10. 98) 
显然 ， 式 (10. 94) 的 算法 不 满足 式 (10. 96) 描 述 的 等 变异 条 件 ， 因 为 矩阵 值 函数 GCCCn)sCn)) 
是 被 W-7T(n)A 右 乘 ， 这 通常 是 和 CCn) 不 同 的 。 为 了 校正 这 一 状况 ， 我 们 在 式 (10. 97) 中 的 函 
数 GCC(n) s(n) ) 和 矩阵 积 WTA 之 间 揪 人 矩阵 积 W (za)W(n 。 由 矩阵 W 及 其 转 置 的 积 组 
成 的 项 WW 总 是 正定 的 。 这 就 是 乘 以 WW 不 会 改变 学 习 算 法 极 小 点 的 符号 的 原因 。 
重要 的 问题 是 ， 这 一 修正 暗示 着 什么 来 达到 等 变异 条 件 ? 答案 在 于 参数 空间 的 梯度 方向 是 如 何 
形成 的 。 理 想 情 况 下 ， 可 以 利用 反差 函数 oC(W) 的 自然 梯度 *”， 由 通常 的 梯度 V pCW) 定 义 为 
V+ pCW) = (V pCW))W7W (10. 99) 
通常 的 梯度 矩阵 由 式 (10. 91) 定 义 。 在 潜在 意义 下 ， 梯 度 V pCW) 仅 在 参数 空间 WE {WERA EXE 
标 系统 的 欧 几 里 得 空间 时 是 下 降 的 最 优 方向 。 然 而 ， 在 包含 神经 网 络 的 典型 状况 下 ， 参 数 空间 YW 的 
坐标 系统 不 是 正 交 的 。 在 后 一 种 状况 下 自然 梯度 V* o(W) 将 提供 最 速 下 降 一 一 因此 优先 使 用 它 来 蔡 
代 通 常 的 梯度 以 构造 ICA 的 随机 梯度 算法 。 对 于 要 定义 的 自然 梯度 空间 ， 必 须 满足 两 个 条 件 : 
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1. 参数 空间 W 是 黎 曼 的 (Riemannian)*”。 歼 曼 结构 是 可 微 流 形 〈 可 微 流 形 的 概念 在 第 7 章 
已 经 讨论 过 了 )。 
2. 矩阵 W 是 非 奇 异 的 〈 即 可 逆 的 )。 
对 于 当前 的 问题 ， 这 两 个 条 件 都 是 满足 的 。 
相应 地 ， 现 在 我 们 通过 刚刚 描述 的 方式 来 修正 式 (10. 94) 的 算法 ， 人 允许 我 们 写 
Wen +1) = Wn) + y(n) PYY (a) JW) WT WT Cn)) 
Ba. Wie eR W an) Win) 等 于 单位 矩阵 ， 最 后 写 
Wnt 1) = Won) + y(n) [1 yy) y(n) JW) (10. 100) 
这 导致 带 有 期 望 等 变异 性 质 的 盲 源 分 离 。 由 于 式 (10. 100) 的 在 线 学 习 算 法 的 推导 基于 自然 梯度 ， 这 
一 算法 在 文献 中 通常 称 之 为 独立 分 量 分 析 的 自然 梯度 学 习 算 法 (Cichocki and Amari, 2002), 7H 
显 ， 这 一 算法 的 一 个 完整 图 必须 也 包括 式 (10. 85) 的 输入 输出 关系 在 整个 输出 集 上 的 矩阵 表示 : 
y= (y = Wx 
算法 的 这 一 完整 的 输入 输出 图 在 图 10. 14 的 信和 号 流 图 中 画 出 。 


Xl 
Wn) W n+l) 



































x(n) 


图 10.14 式 (10.85) 和 式 (10. 104) 的 盲 源 分 离 学 习 算 法 的 信号 流 图 : 标志 为 z "I 
的 块 表示 单位 时 间 延 迟 单元 。 这 一 图 包含 多 个 反馈 循环 


自然 梯度 学 习 算 法 的 重要 优势 

作为 拥有 等 变异 性 质 的 补充 ， 在 式 (10. 100) 中 描述 的 自然 梯度 学 习 算法 具有 四 个 重要 优势 : 

1. 这 个 算法 是 计算 高 效 的 ， 因 为 它 避 免 了 转化 分 离 矩 阵 W。 

2. 算法 的 收敛 速率 是 相对 快 的 。 

3. 这 个 算法 的 执行 以 一 种 自 适应 神经 系统 的 形式 。 

4. 作为 一 个 随机 梯度 算法 ， 这 一 算法 具有 追 迹 不 稳定 环境 的 统计 变化 的 内 在 能 力 。 
ICA 理论 的 鲁 棒 性 

式 (10. 100) 的 自然 梯度 学 习 算 法 需要 式 (10. 88) 定 义 的 激活 函数 p(y) 的 知识 ， 这 证 明了 ` 
2(y) 是 依赖 于 边缘 分 布 By (y) 的 。 相 应 地 ， 为 了 使 这 个 算法 能 够 为 育 源 分 离 问题 提供 满意 的 
解 ， 边 缘分 布 py(y) 的 任意 数学 描述 必须 和 原始 独立 分 量 ( 即 源 )〉 的 真正 分 布 相近 ; 否则 ， 就 
有 严重 的 模型 不 匹配 。 

然而 ， 实 际 上 ， 我 们 发 现 仅 考 虑 两 个 关于 每 个 独立 分 量 的 内 在 概率 分 布 的 可 能 逼近 是 足 
A: : 
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1. 超 高 斯 分 布 (Super-Gaussian distribution) 。 这 一 分 布 具 有 和 拉 普 拉 斯 分 布 相似 的 形式 ， 
定义 为 : 


pr (y) = Fexp( aly|)s-co< acm 


' 这 里 绝对 值 |y | 以 速率 a 指数 延迟 。 例 如 ， 语 音信 号 的 振幅 样本 倾向 于 服从 拉 普 拉 斯 分 布 。 

2. 亚 高 斯 分 布 (Sub-Gaussian distribution ) 。 这 第 二 个 分 布 类 似 于 log- 高 斯 分 布 ， 其 在 原 
点 附近 有 点 平坦 。 

在 之 前 关于 “逼近 ”的 陈述 是 ICA 理论 的 鲁 棒 性 的 证 明 : 

G) 内 在 分 布 的 简单 模型 对 于 估计 独立 分 量 是 足够 的 。 

GD 在 对 每 个 独立 分 量 测 试 超 高 斯 和 亚 高 斯 逼近 时 的 小 的 模型 误差 是 允许 的 。 

更 具体 地 ，ICA 理论 的 鲁 棱 性 由 下 面 重要 的 定理 所 证 实 (Hyvirinen 等 ，2001) : 

令 by, Cy) 记 由 分 离 器 输出 y 表示 的 第 i 个 独立 分 量 〈 源 信号 ) 的 假设 概率 密度 函数 。 定 


SUE PAR: a, -~ Py, CY) ~ ə 
(y) =— loghy O) =— PE BY Cy) = dy, Cy,) 
py ay, BPAY By Gy P T ay 


i 





BIR ADE OHH RAMA AK, LHD 随机 变量 Y, 具有 单位 方差 。 则 独 
立 分 量 的 自然 梯度 估计 为 局 部 一 致 的 。 设 假定 的 分 布 满足 如 下 条 件 : 
ELygp ly) 一 pg GdI>0, 对 于 所 有 1 (10. 101) 
其 中 


g (y) 一 py) 


这 一 定理 从 此 之 后 称 为 ICA 重 棒 定理 (Hyvirinen 等 ，2001)， 它 严格 地 证 明了 只 要 不 等 式 条 
件 (10. 101) 的 符号 对 所 有 i 保持 不 变 ， 在 逼近 分 布 dy, (y) 中 小 的 差异 不 影响 利用 自然 梯度 学 
习 算 法 计算 的 独立 分 量 的 估计 的 局 部 一 致 性 ”。 

对 于 自然 梯度 学 习 的 ICA 鲁 棒 定理 可 以 等 价 地 应 用 于 第 10. 15 节 讲 述 的 最 大 似 然 估 计 过 
E. MEA, ICA 和 鲁 棒 定 理 告诉 我 们 ， 如 何 基 于 式 (10. 101) 的 不 等 式 构 造 函 数 族 ， 族 中 的 每 一 对 
由 属于 超 高 斯 分 布 和 其 亚 高 斯 分 布 副本 的 log- 高 斯 密度 函数 构成 。 实 际 上 ， 我 们 因此 在 两 个 候 
选 分 布 之 间 具 有 一 个 简单 的 二 位 选择 。 下 面 的 例子 解释 了 这 样 的 一 个 选择 。 

例 10 超 高 斯 和 亚 高 斯 函数 

考虑 一 对 log -密度 函数 

logpł (y) = a — 2log coshCy) 


logpy (y) = az 一 (3r — log cosh(y) ) 


其 中 wm 和 ws 是 正常 数 ， 用 于 确认 每 一 个 函数 满足 概率 密度 函数 的 基本 性 质 。 正 和 负 的 上 标 用 
于 分 别 强 调 考虑 中 的 函数 参照 超 高 斯 或 者 亚 高 斯 概率 密度 函数 。 

将 式 (10. 88) 的 公式 作用 于 激活 函数 py (>y)， 得 到 双 曲 正切 函数 : 

p+ (y) = tanh(y) 

这 里 为 了 数学 上 的 方便 我 们 忽略 了 乘积 因子 2。 将 这 一 结果 再 次 对 y 求 微分 ， 得 到 激活 函 

数 的 梯度 
g” = sech’ (y) 
因此 ， 对 于 超 高 斯 函数 ， 式 (10. 101) 的 左边 生成 以 下 的 结果 (不 考虑 伸缩 因子 2) 
ELy tanh(y) — sech’ Cy) ] 


对 于 py Cy) 进行 同样 的 两 个 操作 ， 得 到 
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g (y) = y— tanh(y) 
g (y) = 1— sech’ (y) 
因此 ， 对 于 亚 高 斯 函数 ， 式 (10. 101) 的 左边 产生 
ELy’ — y tanh(y) 一 1 十 sechz(y)] = E[— y tanh(y) + sech? Cy) ] 
其 中 我 们 调用 了 0 -均值 随机 变量 Y( 由 样本 值 y 表示 ) 的 方差 是 1 的 假设 ， 即 ELY?] 一 1。 | 
检查 刚刚 获得 的 超 高 斯 和 亚 高 斯 油 数 的 结果 ， 我 们 发 现 它 们 实际 上 具有 对 立 的 代数 符号 。 
于 是 ， 仅 有 其 中 一 个 满足 式 (10. 101) 的 不 等 式 ; 对 于 ICA 的 数据 集 满足 这 一 不 等 式 的 特别 的 
激活 函数 是 被 用 于 根植 于 独立 分 量 分 析 原 则 的 算法 类 (如 自然 梯度 学 习 算法 ) 的 函数 。 E 


10.15 ”独立 分 量 分 析 的 最 大 似 然 估计 


前 面 一 节 所 讨论 的 独立 分 量 分 析 的 原则 只 是 诸多 育 源 分 离 方法 中 的 一 种 。 但 在 这 一 原则 的 
背景 中 ， 有 其 他 两 种 方法 能 够 以 无 监督 方式 解决 源 分 离 问 题 : RARER. AA 
中 我 们 讨论 最 大 似 然 法 ， 在 下 一 节 中 讨论 最 大 炉 法 。 

最 大 似 然 法 是 一 个 统计 估计 的 良好 建立 的 过 程 ， 具 有 一 些 良好 的 性 质 *。 在 这 个 过 程 中 ， 
我 们 首先 建立 对 数 似 然 函 数 ， 然 后 根据 考虑 的 概率 模型 的 参数 向 量 对 它 进行 最 优化 。 从 第 2 章 
的 讨论 中 ， 我 们 知道 似 然 函 数 是 一 个 给 定 模型 中 的 数据 集 的 概率 密度 函数 ， 但 只 是 作为 模型 未 
知 参数 的 一 个 函数 。 根 据 图 10.9， 令 ps(s) 表 示 样 本 值 是 s 的 随机 源 向 量 S 的 概率 密度 函数 。 
那么 在 混合 器 输出 端的 观测 向 量 X 一 AS 的 概率 密度 函数 定义 为 : 

px(x,A) = |det(A) |“ ps (A™'x) (10. 102) 
其 中 det(A) 是 混合 矩阵 A BITIR. GITS (xh RAL X A 六 次 独立 实现 组 成 的 训 
练 样本 。 于 是 可 以 写成 


px (9;A) = [bx (x1 AD (10. 103) 
我 们 发 现 用 归 一 化 〈 除 以 样本 数目 N 后 的 对 数 似 然 函 数 更 方便 ， 表 示 为 
T log? (T, A) = J Sloep ,A) = J X logas Anxo — log | det(A) | 
4 y=A™"x 为 分 离 器 输出 端的 随机 向 量 Y 的 一 个 实现 ， 这 样 可 写成 
F logpx(T,A) = 4 X loeps — log | det(A) | (10. 104) 


=W H py, W) RAR LA W 为 参数 的 Y 的 概率 密度 函数 。 注 意 式 (10. 104) 中 的 求 和 是 
oer RE PON 从 大 数 定律 发 现 ， 当 N 趋 于 无 穷 时 ， 


L(W)= lim >) logps (yi) + log | detCW) | = ELlogps¢y) ] + log | detCW) | 


= F py Cy, W)log psCy) dy + log | det(W) | (10. 105) 


以 概率 1 成 立 ， 其 中 第 二 等 式 是 关于 YOR, BA LOWER ARIRAMA RAA. HUY 
下 公式 





py) = (L) py ly,W) 


pyrl(y, W) 
我 们 可 以 将 LC(W) 表 示 为 等 价 形式 ; 


Low) = [7 prc, Wlog( 52) )ay + [pr (y, Wlogpr (y, Wdy + log | detW) | 


=— RCW) — ACY, W) + log | det(W) | (10. 106) 
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其 中 我 们 运用 了 如 下 的 定义 ， 
。 和 相对 粹 有 相同 公式 的 期 望 反差 函数 RCW)， 如 式 (10.77) 所 定义 。 
。 WRO 12)? 第 一 行 所 定义 的 微分 灶 h(Y，w)。 l 
下 面 ， 利 用 式 (10. 78) ， 最 后 重 写 式 (10. 79) 为 所 期 望 的 形式 
LCW) =— RCW) — A(X) (10. 107) 
其 中 h(X) 是 分 离 器 输入 端的 随机 向 量 X PIE (Cardoso，1998a)。 在 式 (10. 107) 中 ， 唯 一 
依赖 于 分 离 器 的 权 值 向 量 W 的 是 期 望 反差 函数 RC(W)。 因 此 从 式 (10.107) 可 以 得 到 如 下 结论 ; 
最 大 化 对 数 似 然 函 数 LCW) 就 等 于 最 小 化 RCW) ， 即 使 分 离 器 的 输出 Y 的 概率 分 布 与 初始 源 向 
HES 的 概率 分 布匹 配 。 
最 大 似 然 估计 与 独立 分 量 分 析 原 则 之 间 的 关系 
对 目前 问题 应 用 式 (10. 43) 所 描述 的 Pythagoream 分 解 ， 可 以 将 期 望 反 差 函 数 表示 为 极 大 似 然 
ROW) = Da + Di, us, (10. 108) 
ACO. 108) 47 WSS PAA Da 9, 是 表征 独立 分 量 分 析 方 法 的 结构 失 配 的 度量 ， 第 二 个 相 
XA Di 146 是 描述 初始 源 向 量 S 的 分 布 和 分 离 器 输出 Y 的 边缘 分 布 之 间 的 边缘 失 配 的 度量 。 因 
此 可 以 将 用 于 最 大 似 然 的 全 局 分 布匹 配 准 则 表达 如 下 : 


(全 局 失 配 ) = (结构 失 配 ) 十 (边缘 失 配 ) (10. 109) 


Pizv Daisy 
在 所 关心 的 式 (10. LOD MAW, “结构 失 配 ”是 指 一 组 独立 变量 的 一 个 分 布 的 结构 ， 而 “边缘 
失 配 ”是 指 各 边缘 分 布 之 间 的 不 匹配 。 
在 理想 情况 下 WHA! 〈 即 完全 育 源 分 离 )， 结 构 失 配 和 边缘 失 配 都 消失 。 在 这 种 情况 下 ， 
最 大 似 然 与 独立 分 量 分 析 产 生 完 全 相同 的 结果 ， 理 想 情况 下 的 两 者 的 关系 描绘 在 图 10. 15 中 。 


:概率 分 布 的 全 部 集合 
{py (y)} 











DB ={py (y,W) } 


有 参 分 离 器 输出 分 布 









pss) 
真实 的 源 分 布 
S: 所 有 独立 


分 布 集 合 
By ly) :分 离 器 输出 
的 边缘 分 布 
Og 


图 10.15 FPR RO RADA SAUD OS MN KARE. 
最 大 似 然 最 小 化 Di ， 而 独立 分 量 分 析 最 小 化 Doy i, 
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在 这 个 图 中 ，9 是 分 离 器 输出 端 随机 向 量 Y 的 所 有 概率 密度 函数 py(y) 的 集合 ; 8 是 所 有 独立 概 
率 分 布 的 集合 ， 也 就 是 那些 乘积 形式 。9 和 4 都 是 无 穷 维 的 。 集 @= {py(y，W)} 是 在 分 离 器 的 
输出 端 测 量 得 到 的 概率 分 布 的 有 限 集 。3 是 m 维 的 ， 其 中 m 表示 Y 的 维 数 ， 权 值 向 量 W 是 其 
中 的 一 个 坐标 系 。 从 图 10. 15 中 ， 可 以 清楚 看 出 D, ys, M Deyi WHA UN BD. mE, 
如 图 10. 15 所 示 ， 集 合 3 和 .9 在 交点 处 正 交 ， 该 交点 由 真实 概率 密度 函数 ps (s) 所 定义 。 

对 于 一 个 基于 最 大 似 然 原则 的 盲 源 分 离 算法 必须 包括 对 固有 的 未 知 源 分 布 的 估计 ， 而 这 些 
源 分 布 通常 就 是 未 知 的 。 这 个 估计 的 参数 正如 调节 分 离 权 值 矩 阵 W 一 样 是 可 以 调节 的 。 换 句 
话说 ， 我 们 应 该 进行 混合 矩阵 和 源 分 布 〈 一 些 特征 ) 的 联合 估计 (Cardoso, 1997, 1998); 这 
种 联合 估计 的 一 种 巧妙 和 成 熟 的 方法 已 经 在 Pham % (1992, 1997) 中 给 出 。 


10.16 BRABHRAMS > 


在 本 节 中 ， 我 们 寻求 用 第 10. 3 Wetec Re KR PE ER BUR OD BS fa A a — h 
方法 。 考 虑 图 10. 16， 它 给 出 了 基于 这 种 方法 的 系统 方 杠 图。 与 以 前 一 样 ， 分 离 器 对 观察 向 量 
工 进行 操作 ,产生 和 输出 y 王 Wx， 它 是 初始 源 向 量 s 的 估计 。 向 量 y 经 过 每 个 分 量 为 非 线性 的 变 
换 GC(。) 变 成 z， 且 GC(，) 是 一 个 单调 可 逆 函 数 。 因 此 ， 与 y 不同 ,， 对 一 个 任意 大 的 分 离 器 z 
的 微分 炉 h(Z) 保 证 都 是 有 界 的 。 对 于 给 定 的 非 线 性 GC), BARRETT TERRE WR h(z) 的 最 
大 值 ， 得 到 初始 源 向 量 s 的 一 个 估计 。 根 据 在 例 7 中 导出 的 式 (10. 60) ， 对 于 无 噪声 网 络 ， 我 
们 回忆 到 最 大 信 方 法 与 最 大 互信 息 原则 是 紧密 相关 的 。 实 际 上 ， 这 是 由 于 基于 图 10. 16 的 方案 
的 算法 在 文献 中 被 称 为 ICA 的 Infomax 算法 (Bell and Sejnowski, 1995), 


混合 器 人 分 离 器 W 







未 知 环境 


图 10. 16 JAF RRS RRA HER. Wd s, x, y 和 z 分 别 是 随机 向 
量 S，X,，Y 和 ZZ 的 样本 值 


非 线性 G 是 一 个 对 角 映 像 ， 表 达 为 


yı gO) zi 
gee aa | SS (10. 110) 
m m (Ym) Zm 
也 可 以 写成 
z = G(y) = GCWAs) (10. 111) 
由 于 非 线 性 G(.) 是 可 逆 的 ， 可 以 将 初始 源 向 量 s 利用 分 离 器 输出 向 量 z 表示 成 
s = AWG” (z) = wz) (10. 112) 
其 中 G :是 一 个 非 线性 的 逆 ， 
gi (zı) yı 
_, |% gz (22) ye 
Gs | | = |" (10. 113) 
Bi ma Cad 四 


输出 向 量 z 的 概率 密度 函数 利用 源 向 量 s 的 概率 密度 函数 定义 为 : 
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, 一 ps (s) 
Pa = Trees) | ww (10. 114) 
其 中 det(J(s) ) 是 Jacobi 矩阵 J(s) 的 行列 式 (Papoulis, 1984). J(O MS ij 元 素 定 义 如 下 : 
= 2zi 
了 一 Bs (10. 115) 


所 以 非 线性 G 的 输出 端的 随机 向 量 ZA 
hD =— {llogpz (2) ] 


=— El log( ERNOD | ) (10. 116) 
=— Dpp ES = we) 估 值 
因此 可 以 看 出 最 大 化 微分 粮 及 (Z) 等 价 于 最 小 化 psCs) 和 由 |det(J(s)) | 定义 的 s 的 概率 密度 函数 
ZAM; 参见 式 (10. 35) 的 最 后 一 行 。 
假设 对 所 有 的 i， 随 机 变量 Z;( 踊 Z 的 第 i 个 元 素 ) 在 [0，1] 上 均匀 分 布 。 根 据 例 1， 那 
AN ACD) 0. HAW, Mak (10.116) 得 到 


ps(s) = |det(J(s)) | (10. 117) 
在 理想 情况 WHA. ORR 
ps Cs) = OF | ears 对 于 所 有 i (10. 118) 
Ovi 


相反 ， 如 果 式 (10. 118) 满 足 ， 则 最 大 化 上 (Z) 得 到 W=A', A UR TS RK 
现在 我 们 可 以 总 结 用 于 盲 源 分 离 的 最 大 灶 原 则 思想 如 下 (Bell and Sejnowski,1995): 


如 图 10. 16 所 示 ， 令 在 分 离 器 输出 的 非 线 性 由 初始 源 分 布 定义 为 
z= gy) = | mcas， Y i= 1,2ye5m (10. 119) 

最 大 化 在 非 线性 G 输出 端的 随机 向 量 Z( 其 第 i 个 元 素 具 有 样本 值 z,;) 的 微分 精 等 价 于 
W=A-:， 这 将 产生 完全 的 育 源 分 离 。 
最 大 精 和 最 大 似 然 方法 的 等 价 性 

对 所 有 的 i， 在 随机 变量 Z 是 区 间 [0.1] 上 均匀 分 布 的 条 件 下 ， Be KT EMRK 
方法 对 盲 源 分 离 问题 是 等 价 的 《Cardoso，1997)。 为 了 证 明 这 个 关系 ,我 们 首先 利用 微分 的 链 
式 规则 将 式 (10. 115) 改 写 为 等 价 形式 : 


= Əz; Əy: OX; z Əz; 
„= i 9ze 一 (10. 120) 
Ji >” Əy: arı Os, H Əy; Dy vate 


其 中 偏 导 数 az;/By 是 需要 定义 的 。 因 此 Jacobi 矩阵 了 可 以 表达 为 








J = DWA 
Ht D ERARE 
. ‘Oo 1 9 2 O m 
D = diag(S— sr toS) 
所 以 


| det(J) | = |detCWA)1 工 Ee (10. 121) 


对 于 由 权 值 矩 阵 W 和 非 线 性 函数 G 参数 化 的 概率 密度 函数 ps), WEA. 121), 它 的 估计 
可 以 形式 地 表示 为 (Roth and Baram, 1996): 


ps(s|W.G) = | detCWA) | II 8 Ye o2 (10. 122) 
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因此 在 这 种 条 件 下 ， 可 以 看 出 盲 源 分 离 最 大 化 对 数 似 然 函 数 logps (s| W, G) Eth FRAG 
ACL), GREH, FRAT IE SR KR TIKES Oh 
盲 源 分 离 的 学 习 算 法 

查看 式 (10.116) 的 第 二 行 ， 注 意 到 由 于 源 的 分 布 通常 是 固定 的 ， 最 大 化 粹 h(Z) 要 求 对 
BUERE W 求 分 母 项 log | det(J(s)) | 的 期 望 的 最 大 值 。 我 们 的 目标 是 找到 一 个 自 适 应 算法 来 进 
行 这 样 的 计算 ， 因 此 可 以 考虑 瞬时 目标 函数 ; 


一 log|det(J)| (10. 123) 
将 式 (10. 12D ALAR CO. 123) 得 到 : 
= log | det(A) |+ log | det(W) | 十 > loe( 2) (10. 124) 
所 以 对 分 离 器 的 权 值 矩阵 W 求 @ wae (见习 题 10. 20): 
ge owt ` 2 log( 22 =) (10. 125) 


为 了 进一步 处 理 这 个 公式 ， perenne ASHE, 这 里 可 以 使 用 的 非 线性 
的 简单 形式 为 logistic 函数 : 


z= BOW Ti 2m (10. 126) 


图 10. 17 画 出 该 函数 和 其 反 函 数 的 图 像 。 这 个 图 像 表 明 logistic 函数 满足 盲 源 分 离 的 单调 
性 和 可 逆 性 的 基本 要 求 。 将 式 (10. 126) 代 人 式 (10. 125) 得 到 : 


DP _ W-r+T(1_2z)xr 
aw W + 22)x 


其 中 x 是 接收 信号 向 量 ，z 是 分 离 器 的 输出 向 量 经 非 线 性 变化 后 的 输出 。1 是 分 量 都 为 1 的 
向 量 。 



































图 10.17 a) logistic HA: z= gly.) ao b) logistic 项 数 的 道 ， 和 一 g Cz) 


学 习 算 法 的 目的 就 是 最 大 化 微分 粹 h(Z)。 因 此 采用 最 速 下 降 法 ， 应 用 于 权 值 矩阵 W 的 变 
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化 可 表示 为 ”: 
d 
ow 
其 中 7 了 是 学 习 率 参数 。 与 10. 14 节 描 述 的 ICA 自然 梯度 学 习 算 法 相 类 似 ， 可 以 利用 自然 梯度 消 
除 对 转 置 权 值 矩阵 W 求 逆 的 要 求 ， 这 等 价 于 对 式 (10. 12 RUBBER WW. XTRA 
产生 权 值 变化 所 希望 的 公式 为 : 
AW= yW 4+ A 22x") WW = I+ A 22) (Wx) 7) W 
= f+ (1 — 22)y7)W 
其 中 工 是 单位 矩阵 y 是 分 离 器 的 输出 。 所 以 计算 权 值 矩 阵 W 的 学 习 算 法 可 以 表示 为 : 
Wiat 1) = Wn) + gA + A — 22n) )y (Wm) (10. 129) 
算法 的 初 值 W(0) 选 取 一 组 均匀 分 布 的 小 数值 。 参 照 图 10. 16 的 方 框图 ， 我 们 可 以 看 到 在 第 n 
时 间 步 输出 yO) HA x(n) EB W(Ca)x(z) 来 定义 。 因 此 ， 在 每 一 次 分 离 矩阵 W) 
的 更 新 ,我们 可 以 相应 地 计算 分 离 器 输出 y(n) 的 更 新 值 。 


10.17 ”独立 分 量 分 析 的 负 焕 最 大 化 


在 10. 14 节 至 10. 16 节 讨 论 了 ICA 这 样 或 那样 的 形式 ， 这 些 ICA 算法 基本 上 是 根植 于 统 
计 独 立 分 量 原则 的 ， 而 这 一 原则 自身 是 基于 10. 14 节 讨 论 过 的 相对 焙 的 。 本 节 我 们 将 背离 这 一 
原则 并 描述 另 一 个 不 同 地 根植 于 信息 论 的 ICA 算法 。 这 一 算法 称 为 FastICA 算法 ， 由 
Hyvärinen and Oja(1997) 提出 。 

更 具体 来 说 ，FastICA 算法 开发 了 非 高 斯 性 的 概念 ， 而 非 高 斯 性 在 前 面 的 10.12 节 中 讨论 
过 ， 它 是 独立 分 量 分 析 的 需要 。 对 于 随机 变量 的 非 高 斯 性 的 重要 测量 是 负 炉 ， 它 是 基于 微分 炉 
的 。 因 此 我 们 通过 描述 这 一 新 概念 来 开始 对 FastICA 算法 的 讨论 。 
i 

在 例 2 中 ,我 们 证 明了 高 斯 随机 变量 和 其 他 随机 变量 的 不 同 在 于 其 具有 最 大 的 可 能 微分 
粹 。 具 体 来 说 ,高 斯 随机 变量 的 信息 内 容 是 约束 于 二 阶 统 计 的 ， 由 此 能 够 计算 所 有 高 阶 统计 。 
为 了 评估 一 个 随机 变量 的 非 高 斯 性 ， 需 要 假定 一 个 满足 两 个 性 质 的 测量 : 

1. 这 个 测量 是 非 负 的 ， 假 设 对 于 高 斯 随机 变量 其 极限 值 为 零 。 

2. 对 于 所 有 其 他 随机 变量 ， 这 个 测量 大 于 零 。 


AW = 7 So = WT + = 22)x") (10. 127) 


(10. 128) 


Si HB AB ST AE A HE 
SBS ESE TA LE aX, XE 
NOD = H(Xge) — H(X) (10. 130) 


其 中 HOE X WA. AH Xan) 是 协 方差 矩阵 等 于 X ORI EAA 

按 信 息 论 的 术语 ， 负 炉 是 关于 非 高 斯 性 的 良好 的 测量 。 但 这 需要 大 量 的 计算 时 间 ， 这 限制 
了 其 实际 应 用 。 要 克服 这 一 计算 困难 ,我们 必须 寻找 对 负 炉 的 简单 到 近 。 下 面 考 虚 0 -均值 单 
位 方差 的 非 高 斯 随机 变量 V。Hyvarinen and Oja(2000) ER TEM: 

NCV) = EL@®CV) ] —EL®(U) | (10. 131) 

其 中 U 也 是 0 -均值 单位 方差 的 高 斯 随机 变量 ( 即 它 是 标准 化 的 )。 对 所 有 实际 目的 ，%(*) 是 
非 二 次 函数 ， 令 人 满意 的 是 ， 这 一 函数 不 能 快速 增长 ， 因 而 使 得 估计 过 程 鲁 棒 。 根 据 
Hyvärinen and Oja(2000), 下 面 给 出 的 两 个 选择 证 明了 其 有 效 性 。 


1. Cv) = log(cosh(v) ) (10. 132) 
2. P) = exp(—%) (10. 133) 
. Cv) = exp 7 . 
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其 中 vv 是 随机 变量 V 的 样本 值 。 因 而 可 以 将 式 (10. 131) 作 为 独立 分 量 分 析 目 的 的 最 大 化 的 “ 反 
差 函 数 ”"。 除 了 伸缩 因子 ， 孔 数 BB(v) 可 以 看 作 概率 密度 函数 。 注 意 在 式 (10. 132) 和 式 (10. 133) 
中 使 用 的 B(.) 不 能 与 式 (10. 123) 中 使 用 的 矩阵 四 相 混淆 。 
FastiCA 算法 的 基本 学 习 规 则 

为 了 给 FastICA 的 开发 铺路 ， 我 们 首先 考虑 这 个 算法 的 一 个 单一 单元 (single-unit) 版 
本 。 术 语 “unit” 表 示 一 个 具有 可 调 权 值 向 量 w 的 神经 元 。 这 个 神经 元 将 被 设计 来 供 我 们 推 
出 FastICA 算法 的 基本 学 习 规则 。 

令 x 为 预 自 噪 化 的 0 -均值 随机 向 量 XX 的 样本 信 ， 其 被 应 用 于 神经 元 的 输入 。 我 们 通过 如 
下 的 做 法 来 开始 推出 基本 学 习 规 则 。 

最 大 化 可 调 权 值 向 量 W 对 随机 向 量 义 的 投影 的 负 灶 ， 在 上 wj = 二 1 的 约束 之 下 。 


投影 是 通过 内 积 w7X 来 定义 的 。 有 了 预 白 噪 化 的 随机 向 量 匀 ， 约束 || wil = 等 价 于 约束 

投影 具有 单位 方差 ， 如 下 所 示 
var[w7X] 一 EL(wT7X)?] = Elw XX w]= w EXX Jw= w'w= || w||?= 1 
(10. 134) 

在 式 (10. 134) 的 第 一 行 ， 利 用 了 加 于 X 的 0 -均值 假设 ， 在 第 三 行 ， 利 用 了 加 于 X 的 预 白 品 化 
假设 。 

为 了 使 基本 的 学 习 规则 是 计算 有 效 的 ， 我 们 寻找 式 (10. 131) 的 通 近 来 作为 计算 负 精 NOV) 
的 公式 ， 这 里 V= 二 wTX。 由 于 U 是 0 -均值 单位 方差 的 标准 高 斯 随机 变量 ， 因 而 独立 于 w， 这 
就 有 对 于 w 最 大 化 NCV) 等 价 于 最 大 化 非 二 次 函数 OV) =O WX), AULA LA arty 
趣 的 优化 问题 如 下 : 


最 大 化 期 望 E[@B(w x], lwli = 的 约束 之 下 。 


根据 优化 理论 的 Karush-Kuhn-Tucker 条 件 〈 在 第 6 章 讨 论 过 )， 对 这 一 有 约束 最 大 化 问 
题 的 解 可 以 在 下 面 的 方程 中 找到 : 














2 EL@(w'x)] —aw = 0 (10. 135) 
ow 


其 中 x 是 随机 向 量 X 的 样本 值 。 期 望 E[BCw x)] 对 于 权 值 向 量 w 的 梯度 向 量 为 ， 
2 aw o]= E| oww] = E| atw'x) Ə Bw | =E[xp(w’x)] (10.136) 

















ow ow x 
其 中 gC*) 是 非 二 次 函数 @@() 对 其 自 变 量 的 一 阶 导 数 ， 即 
_ dv) 
glv) = do 


例如 ， 对 于 式 (10. 132) 定 义 的 函数 OC, A 
po) = 是 logCcosh(z)) 一 tanh() 
对 于 式 (10. 133) 定 的 函数 D), A 
d 2 2 
glu) = 去 ( exp( 5 ))= v exp(— > 


因此 ， 可 以 重 写 式 (10. 135) 为 等 价 形式 : 
ELxg(w'x) ]—aw = 0 (10. 137) 
我 们 感 兴趣 的 是 找到 执行 基本 学 习 规则 的 计算 有 效率 的 选 代 过 程 ， 此 时 最 优 权 值 向 量 w 指 
向 独立 分 量 的 方向 。 为 此 ， 我 们 提出 将 牛顿 法 应 用 于 式 (10. 137) 的 左边 。 
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用 向 量 值 函数 来 记 这 一 表示 式 如 下 : 
f(w) = ELxpCw5x)] — Aw (10. 138) 
在 第 3 章 和 第 4 章 讨 论 过 牛顿 法 。 要 应 用 该 方法 ,我 们 需要 函数 f(w) 的 Jacobi 矩阵 ， 由 下 式 
定义 : 
J(W = -af(w = -atELxp(wrx] 一 Mw) = 2 pwo] aw) 
ow Ow ow ow 





= E| 2 xpw" | — AI = EL xx’9’(w’x) ] —Al (10. 139) 


Hp ERTER., p ORRA p( 对 其 自 变 量 的 微分 。 换 句 话说 w (是 初始 函数 OC) RH 
自 变量 的 二 阶 导数 。 现 在 我 们 可 以 看 到 ， 为 什么 稍 早 时 候 我 们 声明 gp(*) 必 须 是 非 二 次 函数 ， 否 
则 ， 在 式 (10. 139) 中 g(*) 将 等 于 一 个 常量 ， 而 这 是 不 可 接受 的 。 

然而 ， 在 继续 进行 之 前 ， 我 们 希望 进一步 简化 基本 学 习 规则 的 推出 。 由 于 输入 向 量 x 被 预 
白 品 化， 因此 可 以 假设 外 积 xx? 和 式 (10.139) 中 的 项 w (wzx) 是 统计 独立 的 。 在 这 一 假设 下 ， 
可 以 继续 写 











EL xx? g (wx) | ~ ELxx? ] ELy (wz7x)] = Elg (wx) JI (10. 140) 
其 中 ， 在 最 后 一 行 ， 我 们 利用 了 输入 x 的 白化 性 质 : 即 ELxx7] 一 I。 相 应 地 ， 我 们 现在 发 现在 
RAO. 139) 的 Jacobi 矩阵 J(w) 的 整个 表达 式 具 有 标量 乘 以 单位 矩阵 了 的 形式 ， 如 下 所 示 : 


JCw) = (Elg (wx) 1 — Aa) (10. 141) 
这 是 可 道 的 。 有 了 目前 的 逼近 ， 我 们 可 以 将 牛顿 和 只 代步 表示 为 : 
wr = w— J Cw) fCw) (10. 142) 


其 中 w 是 权 值 向 量 的 老 的 值 ，w+ 是 更 新 值 。 也 注意 到 我 们 在 迭代 步 中 使 用 了 负 号 ， 因 为 我 们 
是 在 寻找 函数 f(w) 的 最 大 值 。 因 此 ， 将 式 (10. 141) 代 人 到 式 (10. 142)， 得 到 ， 
wi = w— (Elg (wx) ] —1)7 (ELxp(w’ x)] — àw) 
可 以 通过 在 等 式 的 两 边 乘 以 标量 〈ELw'(w7x)] 一 1》 来 简化 迭代 步 ， 这 产生 : 
w= (Elg (wx) —A)w— (ELxg(w"x) ] — Aw) = EL¢ (wx) Jw—ELxgw")] (10. 143) 
其 中 ， 在 左边 ， 在 新 的 值 w 中 我 们 吸收 了 伸缩 因子 Elp (w x)j] 一 4)。 并 注意 到 我 们 不 需要 
知道 拉 格 朗 日 乘 子 1 的 值 ， 因 为 它 在 式 (10. 143) 的 和 迭代 步 中 被 代数 消去 了 。 

式 (10. 143) 是 我 们 所 探索 的 基本 学 习 规 则 的 核心 。 实 际 上 ， 根 据 这 一 式 子 ， 我 们 现在 可 以 
模型 化 单一 神经 元 ， 这 一 公式 围绕 这 个 神经 元 建立 ， 如 图 10. 18 所 示 。 根 据 这 个 图 ， 将 非 线 性 
函数 p(.) 看 作 神 经 元 的 激活 函数 。 

有 了 式 (10. 143) 的 和 迭代 步 ， 我 们 最 终 可 以 总 结 FastICA 算法 的 基于 牛顿 法 的 学 习 规 则 
WF: 

1. 选择 权 值 向 量 w 的 初始 值 ， 利 用 随机 数 产 生 器 在 w 的 欧 几 里 得 范 数 为 单位 1 的 约束 下 
来 选择 。 

2. 利用 权 值 向 量 w 的 老 的 值 来 计算 更 新 值 : 

wt = Elg (wx) Jw 一 ELxp(w7x)] 
3. 归 一 化 更 新 后 的 权 值 向 量 w' 使 得 其 欧 几 里 得 范 数 为 1， 如 下 所 示 : 


wt 


| w|i 
4, 如 果 算 法 还 没有 收敛 ， 转 回 到 第 2 步 并 重复 这 一 计算 。 
为 了 计算 学 习 规 则 第 2 步 的 期 望 ， 我 们 可 以 调用 遍历 性 (ergodicity) 并 且 用 基于 输入 向 
量 x 的 独立 样本 (实现 ) 序列 的 时 间 平 均 来 代替 期 望 。 
我 们 说 学 习 规 则 收 仇 〈 即 规则 达到 了 一 个 均衡 点 ) 当 更 新 的 权 值 向 量 w BA AE a ia 
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w 指向 相同 的 方向 时 。 即 ， 内 积 ww 的 绝对 值 接近 于 单位 1。 然而， 由 于 仅 在 乘积 伸缩 因子 
内 ICA 算法 能 够 检测 独立 分 量 ， 因 此 不 需要 寻找 权 值 向 量 w 和 w 指向 完全 相同 的 方向 的 均衡 
点 ，w 是 w 的 负 也 是 可 接受 的 。 

作为 最 后 的 批注 : 算法 的 推导 以 及 应 用 是 基于 混合 器 输出 已 经 被 预 白化 的 前 提 下 ; 而 预 白 
化 问题 在 第 10.12 节 中 讨论 过 。 


(X 


o w) =ø (wx) ; 
where w= Cups, 


输入 向 量 
x 





N Xm 





图 10.18 表示 FastICA 算法 的 基本 学 习 规 则 特征 的 神经 元 模型 


FastICA 算法 的 多 单元 版 本 
自然 地 ， 在 单一 神经 元 上 建立 的 基于 牛顿 法 的 学 习 规 则 ， 仅 能 估计 生成 观测 向 量 x 的 痉 
个 独立 分 量 〈 源 ) 中 的 一 个 。 为 了 将 这 一 规则 扩展 到 估计 所 有 的 m 个 独立 分 量 ， 我 们 明显 需 
要 一 个 具有 m 个 神经 元 的 网 络 或 者 其 等 价 物 。 
为 了 探索 这 一 网 络 所 需要 满足 的 条 件 ， 令 wi ,ws，… We 记 由 网 络 的 m 个 神经 元 产生 的 权 
值 向 量 。 为 了 这 个 向 量 集 能 够 表示 盲 源 分 离 (BSS) 问题 的 正确 解 ， 需 要 两 个 条 件 : 
1. 正 交 性 。 假 设 随 机 观测 向 量 六 被 同时 作用 于 mm 个 神经 元 ， 产 生 输出 集 ; 
Vjni ,其 中 V; = wiX 
为 了 阻止 所 有 m 个 权 值 向 量 收 化 到 相同 的 独立 分 量 ， 我 们 需要 神经 元 输出 之 间 是 彼此 不 相关 
的 ， 即 : 
EVV,;]=0, 当 j 关 i (10. 144) 
因此 ， 有 了 V.=wi X Al V; =w X=X'w;, 我 们 有 
ELV.V;] = E[w XX w; ] = wi E[LXX’]w; = wiw, 47 #i 
Ht, RAT. RNA SOMME X 的 白化 性 质 。 因 此 ， 随 后 为 了 满足 式 (10. 144) 的 去 
相关 性 质 ， 权 值 向 量 w ,ws ，… ,wa 必须 形成 正 交 和 集 ， 如 下 所 示 : 
ww 一 0， 当 j 关 i (10. 145) 
2. 归 一 性 。 为 了 和 基于 牛顿 法 的 学 习 规 则 相 一 致 ， 我 们 需要 将 每 一 个 权 值 向 量 归 一 化 使 
其 欧 几 里 得 范 数 等 于 单位 1， 如 下 所 示 : 
lw ll = 1， 对 于 所 有 i (10. 146) 
将 条 件 1 和 2 放 在 一 起 ， 总 结 如 下 : 
为 了 使 权 值 向 量 WW W, 能 提供 生成 观测 向 量 X 的 m 个 独立 分 量 ( 源 ) 的 估计 ， 它 
们 必须 构成 一 个 正 交 集 ， 如 下 所 示 : 
fl, Bi 
”10， 其 他 


T 


ww; (10. 147) 


Gram-Schmidt 正 交 化 过 程 
式 (10.147) 所 加 于 权 值 向 量 的 两 个 必要 条 件 使 我 们 想起 一 个 简单 的 降 阶 方法 (deflational 
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method) ， 它 基于 Gram-Schmidt 正 交 化 过 程 *， 用 于 逐一 估计 所 有 的 m 个 独立 分 量 。 该 方法 
最 初 是 由 Hyvarinen and Oja(1997, 2000) 提出 的 。 具 体 来 说 ， 假 设 我 们 首先 在 观测 向 量 x 的 
N 个 独立 实现 (样本 ) 上 运行 单一 神经 元 的 基于 牛顿 法 的 学 习 规 则 ， 获 得 m 个 独立 分 量 中 一 
个 权 值 向 量 w 的 估计 。 当 在 x 的 下 一 个 NN 独立 实现 集 上 运行 这 一 规则 时 ， 假 设 结果 权 值 向 量 
记 为 ws 。 对 于 第 二 个 权 值 向 量 采 用 不 同 记号 的 理由 是 向 量 wz 不 一 定 和 w 是 正 交 的 。 为 了 矫正 
正 交 性 这 一 必要 条 件 的 偏 移 ， 我 们 应 用 Gram-Schmidt 正 交 化 过 程 ， 获 得 : 
8 = o 一 (ai wi)w 
其 中 从 a 中 减 去 “投影 ” Caw) wl。 认识 到 | Wi | 二 1， 直接 可 证 9: 实际 上 是 正 交 于 w 的 ， 
Al bw 一 0。 剩 下 要 做 的 是 通过 下 式 归 一 化 8 : 
8: 


w = — 
> Te fl 
按 这 一 种 方式 进行 下 去 ， 假 设 在 观测 疝 量 x 的 下 一 个 N 样本 集 上 ， 基 于 牛顿 法 的 学 习 规 
则 产生 权 向 量 gs ， 再 一 次 @ Mw 以 及 w 不 一 定 正 交 。 为 了 校正 这 些 偏 差 ， 我们 再 一 次 应 用 
Gram-Schmidt 正 交 化 过 程 ， 得 到 ， 


8 = a; — (a; Ww) Wi — (Qf Ws) We 


这 里 从 u 中 减 去 了 投影 《egIw) w, j=l, 2. WIRD |w | = | w | =1 Awiwe=0, Eik 
可 证 6 和 w 以 及 we 都 正 交 。 因此 ， 剩 下 要 做 的 是 归 一 化 0; : 
_ _ 4 
= Tel 


我 们 可 以 继续 这 一 方式 直到 求 出 所 有 m 个 独立 分 量 。 
下 面 总 结 利 用 Gram-Schmidt 正 交 化 过 程 计算 期 望 的 m 个 权 值 向 量 : 
1. 给 定 wi 为 由 单一 神经 元 基于 牛顿 法 学 习 规 则 在 其 完全 克 代 下 产生 的 归 一 化 权 值 向 量 ， 
给 定 artan 为 规则 在 下 i 次 完全 迭代 产生 的 权 值 向 量 ， 计 算 
On. = Qa 一 ST Oh ww = 1,250 ,mC 1 


其 中 “投影 ” (05-1 W;) wi 被 从 an PRAT. j = 1,2.°57 


2. 归 一 化 0:41 
— _ 8 i= e m — 
wa = Tea gt emt 
基于 这 一 过 程 的 FastICA 算法 表示 了 这 个 算法 的 单一 单元 降 阶 版 本 ”。 
FastICA 算法 的 性 质 


和 其 他 的 ICA 算法 相 比 ，FastICA 算法 具有 一 些 希 望 的 性 质 (Hyvirinen and Oja, 2000; 
Tichavsky 等 ，2006): 

1. 在 无 噪 、 线 性 生成 模型 的 假设 下 ，FastICA 算法 相对 来 说 是 快速 的 一 一 这 个 算法 因此 
而 得 名 。 在 10. 14、10.15、10.16 节 中 讨论 过 的 基于 梯度 的 ICA 算法 趋向 于 线性 方式 收敛 ， 
而 FastICA 的 收敛 是 三 次 的 (或 至 少 两 次 )。 

2. 和 基于 梯度 的 ICA 算法 不 同 ，FastICA 不 需要 利用 学 习 率 参数 ， 使 得 其 设计 更 简单 。 

3. FastICA 算法 具有 利用 任意 非 二 次 型 的 非 线性 po 找到 实际 上 任意 非 高 斯 分 布 的 独立 
分 量 的 内 在 能 力 。 与 算法 的 多 功能 性 相 比 较 ， 基 于 梯度 的 ICA 算法 的 适用 限制 于 亚 高 斯 或 者 
超 高 斯 分 布 ， 而 且 必 须 对 非 线 性 的 选择 特别 小 心 。 

4. 通过 对 非 二 次 函数 pg(*) 的 适当 选择 ， 以 式 (10. 132) 和 式 (10. 133) 为 例 ，FastICA 算法 
的 鲁 棒 性 可 以 得 到 保证 ， 甚 至 在 大 的 数据 集 以 及 在 某 种 噪声 条 件 下 。 
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5. 由 FastICA 算法 系统 化 地 计算 一 个 一 个 的 独立 分 量 。 算 法 的 这 一 特征 使 其 对 于 探测 数 
据 分 析 (exploratory data analysis) 成 为 一 个 有 用 的 工具 ， 其 中 独立 分 量 极限 数 的 估计 可 能 是 
感 兴 趣 的 应 用 所 需要 的 。 这 一 分 析 的 计算 负载 因而 得 到 削减 。 

6. FastICA 算法 具有 几 个 通常 和 神经 网 络 相 关联 的 特性 ， 并 行 性 、 分 布 式 计算 、 简 单 性 、 
小 的 存储 容量 需求 。 另 一 方面 ， 基 于 随机 梯度 的 ICA 算法 (以 10. 14 节 讨 论 的 自然 梯度 算法 
为 例 ) 对 于 包含 不 稳定 环境 的 言 源 分 离 问 题 是 更 好 的 选择 ， 此 时 对 于 快速 自 适应 有 着 明确 的 


需要 。 
10.18 ”相关 独立 分 量 分 析 


通过 回顾 本 章 前 面 已 经 介绍 过 的 关于 信息 论 在 学 习 模型 的 建立 方面 的 素材 ， 我 们 发 现 最 大 
化 互信 息 原则 或 者 简称 Informax 原则 ) 是 突出 的 。Infomax 原则 不 仅 在 我 们 理解 元 余 删 减 、 
感知 器 的 模型 化 、 独 立 分 量 的 提取 时 扮演 着 重要 的 角色 ， 而 且 其 相关 的 Imax 原则 自身 扮演 着 
提取 空间 相关 特征 的 角色 。 实 际 上 ，Infomax 和 Imax 原则 是 互补 的 角色 ， 


Infomax 处 理 穿 过 网 络 的 信息 流 ， 而 Imax 处 理 穿 过 一 对 网 络 输出 的 空间 相关 性 。 


图 10. 19 描述 了 这 两 个 原则 包含 在 一 起 的 情景 。 具 体 地 ， 我 们 有 两 个 分 离 的 但 是 维 数 相同 
的 神经 网 络 : 神经 网 络 a 由 权 值 矩阵 W, 刻画 ， 网 络 5 由 权 值 矩阵 W, 刻画 。 这 两 个 网 络 都 假 
设 为 无 噪 的 ， 目 标 是 将 Infomax 和 Imax 原则 组 合 起 来 使 得 前 面 提 到 的 性 质 综合 起 来 成 为 一 个 
混合 学 习 原 则 ， 该 性 质 根据 Infomax 原则 的 每 个 网 络 的 信息 流 以 及 根据 Imax 原则 通过 视 为 一 
对 一 对 (pair-by-pair) 基 的 两 个 网 络 的 神经 输出 的 空间 相关 性 。 


Maximum / (Y: X.) 


Maximum / (Y Ya 
for =1,2,---, / 





Maximum / CY,;X,) 


图 10.19 相关 ICA 的 一 对 网 络 布局 


Infomax 原则 的 部 分 
首先 考虑 作用 于 穿 过 图 10. 19 所 示 的 每 个 网 络 输 入 -输出 的 Infomax 原则 。 然 后 ， 由 式 (10. 60), 
其 属于 无 噪 的 例 7， 由 权 值 矩阵 W。 刻画 的 网 络 可 通过 互信 息 描述 : 
ICY,;¥X) 一 一 ELlogpv (ya) ] 
其 中 ， 为 了 简化 表达 ， 我 们 忽略 了 和 权 值 矩 阵 W。 无 关 的 附加 常数 ; 而 且 ， 我 们 使 用 了 包含 随 
机 向 量 的 炉 的 式 (10, 60) 。 由 于 构成 输出 随机 向 量 Y 的 元 素 是 “独立 ”的 ,我 们 可 以 将 Y。 的 
概率 密度 函数 表示 为 : 
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Pra) 一 iE (ya.i) 
其 中 1 是 输出 端口 数 。 因 而 可 以 继续 写 
1Y. 5%.) =— E| log TT r., C3.) | =E] Dlog pr, (9a) [rë = 1,250 (10. 148) 
相似 地 ， 对 于 第 二 个 网 络 ， 由 权 值 矩阵 W, 刻画 ， 可 以 写 





ICY, +X) =p] >) logpy,. Cn | si = 1,2,2 (10. 149) 


Imax 原则 的 部 分 ， 
下 面 考虑 Imax 原则 ， 该 原则 应 用 于 这 两 个 网 络 的 输出 ， 按 逐 对 的 原则 对 待 。 根 据 式 
(10. 50) 的 第 二 行 ， 在 输出 Y,; 和 Y,.; 之 间 可 以 用 系 词 来 表示 互信 息 如 下 : 


TCY,,;; Yan) 一 E| logcy,, 5¥ (Venn) | ` 当 i= 1 2 


此 外 ， 由 于 图 10. 19 中 每 个 网 络 的 /个 输出 是 独立 的 ， 这些 各 个 互信 息 部 分 是 加 性 的 ， 生 
成 和 : 


t t 
Hee Yau) = e| > logey., iY, Oyasi 90) | (10. 150) 


BERHAK 


A JW.，W) 记 总 体 平 均 目 标 函 数 ， 解 释 了 Infomax 和 Imax 原则 的 联合 功能 。 然后， 结 
合式 (10. 148) 到 式 (10. 150) 的 互信 息 部 分 ， 写 出 : 


JWW) =— E| > iogp (uu) | -E| > logpr,, Ow) —E| X logey, Y, (ea) | 














=— E| Slow’, Yo) pe, er, Or om)? | 


=e 5 logpy ， Y, (Yai sam) | (10. 151) 


其 中 ， 在 最 后 一 行 ， 使 用 式 (10. 49) 表 示 和 输出 随机 变量 也 :和 区 ,的 联合 概率 密度 函数 。 目 标 函 
数 JCW,，W,) 定 义 了 这 两 个 网 络 输出 集 Yaha (2 全; 的 联合 精 的 和 ， 而 这 两 个 集合 被 
视 为 有 序 的 一 对 一 对 基 ; 这些 输出 相应 地 依赖 于 权 值 矩阵 W 和 W，。 实 际 上 ， 更 严谨 地 ,在 
结合 系 词 部 分 时 我 们 在 式 (10. 151) 的 第 一 行 引 人 了 负 号 。 这 样 做 ,期望 的 两 个 网 络 输出 集 之 加 
的 有 序 统计 相关 得 到 了 加 强 ， 因 此 我 们 可 以 作出 下 面 的 陈述 : 


相关 ICA 原则 最 大 化 网 络 输出 的 两 个 集合 (yer (yi OREN RRR, BA 
个 集合 视 为 有 序 一 对 一 对 基 。 最 大 化 是 对 两 个 成 分 网 络 的 权 值 短 阵 W, 和 Ws 求 得 的 。 


为 了 进一步 的 处 理 过 程 ， 我 们 给 出 两 个 合理 的 假设 : 
1. 图 10. 19 的 两 个 神经 网 络 都 是 线性 的 ， 如 下 所 示 : 
Masi WU Xe, 、 
y= [>] = [we 一 12 (10. 152) 
其 中 w! Al wi ERIRE W, AW, 相对 应 的 第 i FT 
2. 如 第 10. 13 节 讨 论 的 那样 ， 在 自然 场景 中 取得 的 数据 通常 是 稀 芒 的 ， 混合 输出 向 量 y 
的 分 布 可 以 通过 0 -均值 广义 高 斯 双 变 量 分 布 来 描述 ， 其 2X2 DBAS. WP aA: 


344 .第 10 章 信息 论 学 习 模型 





1 1 mip oY 
by, Cy) Fader *P( OEY) 2) i= 1,2, (10. 153) 
其 中 参数 控制 系 词 的 形状 和 稀疏 。 协 方差 矩阵 马 定 义 为 : 
-Jl æ 
== p e] (10. 154) 


这 是 定义 在 式 (10. 67) 的 Imax 的 协 方差 矩阵 的 方差 归 一 形式 。 相 关系 数 o 控制 一 对 网 络 输出 
yai 和 和 si 之 间 的 相关 程度 (对 所 有 D. HI o 不 影响 系 词 的 形状 或 倾斜 度 ; 它 通过 促成 穿 过 两 
个 网 络 的 学 习 的 更 大 相关 来 影响 Imax 在 Infomax 上 的 相关 重要 性 。 

对 于 a 二 2， 式 (10. 153) 的 分 布 衰减 为 高 斯 双 变 量 分 布 。 对 于 小 于 2 的 a， 式 (10.153) 开 始 
呈现 超 高 斯 分 布 的 形式 ， 如 图 10. 20 对 三 个 不 同 的 a 值 所 说 明 的 那样 。 特 别 对 于 a 二 1.3， 式 
(10. 153) 假 设 了 一 个 更 像 语 音信 号 的 拉 普 拉 斯 分 布 的 形式 。 

向 量 y: 包含 两 个 元 素 yo 和 ys 。 因 此 ， 将 式 (10.153) 代 人 式 (10.151) 并 忽略 常数 项 
2ndet'? (X), RWA: 


J(W,,W,) = 4 E| D Gyr zy" | (10. 155) 




















概率 密度 函数 














0 
单 值 
图 10.20 ”对 应 于 参数 a 的 变化 值 的 广义 高 斯 分 布 


其 中 总 体 平均 是 对 y 来 完成 的 。 为 了 简化 计算 复杂 度 ， 利 用 二 次 形式 yd y, HWA i KIBE 
时 值 来 忽视 总 体 平 均 的 需要 。 因 而 ， 利 用 式 (10. 154) 对 协 方差 矩阵 马 的 定义 ， 得 到 : 


FW.» Ws) = 1 Morey] 
7 rag te — 2oy avin + ye)?” (10. 156) 
FEET OW. W) EA AE HEE OP EK 
两 个 网 络 学 习 规 则 的 形成 
为 了 形成 对 权 值 向 量 W,,; 的 自 适应 规则 ， 通 过 对 ww,,; 微 分 }(W。，W。) 来 开始 。 利 用 微 积 
分 学 的 链 式 规则 ， 书 写 为 : 


d JW. ,W,) — f) jCW, »W,) OYa,i 
OWa,i OYa,i OWa,i 


(10. 157) 
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对 yi 微分 式 (10.156) 产 生 : 
ojW W) _ 








dya ral ID Yai 一 Yoi) Ohi 一 ZOY aid 6.5 + Yii Je! (10. 158) 
利用 式 (10. 152), 我 们 发 现 对 Wai 微分 Yai = WaiXe 产生 
Oyu, i = 
Bw X, (10. 159) 
因此 ， 在 式 (10.157) 中 利用 式 (10. 158) 和 式 (10. 159) ， 获 得 梯度 向 量 
oJ CW.» W) - 
Baw = C1 SP Om Oo. Yasi — 2pyaidoa 十 yeu Pr x, (10. 160) 


目的 是 最 大 化 瞬时 目标 函数 ff(W.,wW,)， 这 意味 着 我 们 对 和 迭代 计算 利用 梯度 上 升 (gradient as- 
cent), 相应 地 ， 作用 于 wi 的 改变 量 定义 为 : 





AW. 一 G = (Yusi — PY oai) Yari — OY ai Yor 十 yii) Ot x, (10. 161) 
相似 地 ， 作 用 于 权 值 向 量 ww., 的 改变 量 定义 为 : 
AW: = aa Om 一 ai) Vai = 2OY a,i Y b.i + yia) PT X; (10. 162) 


其 中 假设 网 络 5 和 网 络 a 采用 同一 个 学 习 率 参数 7。 
对 于 网 络 a 和 5 的 权 值 修正 分 别 由 下 式 表示 : 
Whi = Wo 十 Awo, (10. 163) 
Wii = Wai + AW, (10. 164) 
Herp i= 1,2,-52. 
30 (10. 163) 和 式 (10. 164) 这 两 个 修正 规则 ， 建 立 在 式 (10. 161) 和 式 (10.162) 的 权 值 改变 


AW,.,;: 和 AW, 之 上 ， 构 成 了 相关 ICA 算法 。 
式 (10. 161) 和 式 (10. 162) 的 解释 
检查 式 (10. 161) 和 式 (10. 162) 的 学 习 规 则 的 代数 结构 是 有 意义 的 。 首 先 来 看 式 (10. 161), 
我 们 看 到 作用 于 权 值 矩阵 W 的 第 i 个 列 向 量 的 改变 AW,;， 属 于 图 10.19 所 示 的 网 络 a， 由 下 
面 三 个 基本 因子 组 成 : 
L 伸缩 因子 an/(1 一 PP)， 这 可 以 简单 地 看 成 修正 的 学 习 率 参数 ， 它 对 于 所 有 的 i 计算 
Aw. 和 Aws.; 而 言 是 共通 的 。 对 于 参数 a 的 修改 仅仅 影响 算法 的 自 适应 率 。 
2. 因子 Oan pyn) x 可 以 表示 为 两 个 二 次 形式 的 差 ， 如 下 所 示 : 
(ya — Y 60) Xa = (Xa WasiXs) — OCR Wo.iXa ) 
第 一 个 二 次 形 (xTw.;x%,) 仅 仅 包 含 网 络 a， 而 第 二 个 二 次 形 (x wx ) 包 含 了 网 络 a A, KE 
需要 指出 的 重点 是 这 样 的 事实 ; 第 二 个 因子 Ouai oyan) %& 是 独立 于 参数 a 的 ; 换 句 话说 ， 
这 个 因子 是 完全 不 受 输出 向 量 y: 是 否 脱 离 高 斯 性 的 影响 的 。 
3. 第 三 也 是 最 后 一 个 因子 (yi 一 2pyaiywi 十 Yi) 也 可 以 用 二 次 形 来 表示 ， 如 下 所 示 : 
(ye 一 2OY ari V bri + yi) = (we Xa Xa Wai 一 2pW..iXaXs Wo + Wi Xo Xe Wai ) 
在 这 个 因子 中 参数 a 以 最 显著 的 方式 影响 着 算法 的 运行 。 特 别 地 ， 当 ua=2 N, RANT OR 
变 成 了 0， 因 而 排除 了 这 个 因子 对 算法 的 影响 。 当 a<2 时 ， 这 在 处 理 超 高 斯 分 布 时 产生 ， 相 关 
ICA 算法 完成 其 出 色 的 信号 处 理 角色 。 
除了 下 标 a Alb 相互 交换 之 外 ， 对 作用 于 式 (10. 162) 的 学 习 规则 具有 相似 的 解释 。 
实际 考虑 
在 完成 相关 ICA 学 习 的 过 程 中 ， 假 设 了 图 10.19 中 网 络 输入 x, Ax, 是 预 白化 的 ， 这 在 
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ICA 相关 的 工作 中 是 通常 的 做 法 。 而 且 ， 在 学 习 过 程 的 每 一 次 迭代 中 ， 权 值 是 归 一 化 的 ， 如 下 
BRAS ， 





Wei = Tye (10. 165) 
以 及 


Wo,; 一 TaT (10. 166) 


这 些 归 一 值 在 算法 的 下 一 次 迭代 中 使 用 。 

对 于 包含 数据 模型 的 应 用 ， 此 时 有 由 空间 变换 数据 构成 的 两 个 数据 流 ， 如 图 10. 19 所 示 。 
在 两 个 数据 流 之 间 加 强权 值 共享 约束 是 有 用 的 ， 此 时 设 : 

Wai = Wus 对 于 所 有 i (10. 167) 
满足 这 一 约束 的 明智 的 方法 是 利用 山 代 (10. 165) 和 式 (10. 166) 计 算 的 w.; 和 wi,; 的 平均 值 。 因 
此 ， 通 过 对 网 络 a 和 6 分 配 相同 的 初 守 权 值 矩阵 来 开始 相关 ICA 的 权 值 自 适应 规则 ， 在 自 适 应 
规则 的 每 一 步 权 值 共享 性 都 得 到 保持 。 

为 了 描述 相关 ICA 原则 的 重要 实际 应 用 ， 我 们 现在 讨论 相关 ICA 原则 是 如 何 对 自然 声 
的 听觉 编码 中 学 习 滤波 器 提供 一 个 计算 工具 的 。 
听觉 编码 : 相关 ICA 作用 于 自然 声音 

在 听 党 系统 的 一 些 结构 和 函数 专业 限定 中 ， 时 间 是 显而易见 的 。 在 听觉 刺激 的 多 个 时 间 尺 
度 上 ， 我 们 发 现 区 别 一 个 听觉 刺激 波形 的 两 个 特定 分 量 是 有 益 的 《Joris 等 ，2004): 

1. 载体 ， 由 波形 的 好 的 结构 来 表示 ， 它 以 “调幅 ”方式 增 大 和 变 小 。 

2. 包 络 ， 它 是 调幅 波形 的 轮廓 。 

从 调幅 理论 可 知 ， 信 息 承 受信 号 〈 即 调制 信号 ) 包含 在 受 调 信号 的 包 络 〈envelope) 中。 
从 生理 学 的 观点 ， 对 调幅 的 兴趣 是 由 想 要 知道 包 络 处 理 是 否 实际 狂人 在 听觉 系统 而 激发 的 。 

事实 上 ， 穿 过 多 层 听觉 系统 ， 存 在 与 进来 的 调幅 语音 信号 相应 的 神经 元 。 特 别 地 ， 了 昕 觉 系 
统 的 连续 层 通 过 对 不 同 局 限 范围 的 调幅 率 的 响应 区 分 开 来 : 较 底 层 通常 响应 于 进来 的 听觉 刺激 
能 量 中 的 快速 变化 ， 渐 浙 地 较 慢 的 变化 在 较 高 层 中 发 生 。 根 据 这 一 事实 ， 在 声音 感知 中 调幅 被 
认为 是 一 个 重要 的 听觉 提示 就 不 奇怪 了 。 

以 听 党 处 理 作为 感 兴趣 的 问题 ， 我 们 将 要 讲述 的 问题 如 下 所 示 + 

1. 给 定 调幅 语音 信号 的 加 性 混合 ， 我 们 如 何 分 离 独 立 分 量 的 包 络 而 忽略 相关 联 的 载体 ? 

相关 的 问题 如 下 所 述 : 

2. 在 自 组 织 的 方式 下 ， 我 们 如 何 学 习 在 听觉 系统 中 不 同 处 理 层 响 应 于 调幅 刺激 的 过 程 的 ? 

对 这 一 基本 问题 的 实验 的 答案 可 以 从 相关 ICA 中 找到 CHaykin and Kan，2007) 。 

在 相关 ICA 中 ， 目 标 是 提取 包含 在 通过 分 离 源 的 保持 了 “相关 ”的 信号 ， 同 时 ， 和 源 相 
关联 的 通过 网 络 的 信息 流 被 最 大 化 。 因 为 在 调幅 中 ， 包 络 和 载体 相 比 缓慢 变化 ， 我 们 可 以 将 调 
幅 看 成 所 考虑 的 包 络 范围 内 的 时 间 相 和 干 性 ， 即 分 别 通 过 两 个 时 间 步 At 秒 ， 假 设 At 足够 小 ， 可 
Wik zG@t+ADez@), 

在 Kan(2007) #1 Haykin and Kan(2007) 中 ， 相 关 ICA 算法 被 应 用 于 英语 演讲 者 们 的 语音 
样本 集 ， 这 个 集 是 从 TIMIT 数据 库 中 取得 ?2 。 这 个 实验 说 明了 利用 相关 ICA 学 习 的 两 层 听 党 
处 理 的 语音 数据 的 滤波 器 集 是 平滑 的 且 局 限于 时 间 的 。 更 重要 的 是 ， 实 验 的 结果 表明 了 两 个 重 
要 的 特征 : 
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1. 两 层 中 滤波 器 的 带宽 仅 包含 调制 谱 频率 ， 忽 略 载体 频率 。 

2. 第 一 层 处 理 计算 的 基带 《〈 即 基于 调制 的 ) 滤波 器 具有 10 倍 于 第 二 层 处 理 计算 的 基带 泪 
波 器 的 切断 频率 。 换 句 话 说， 实验 模型 〈 基 于 相关 ICA〉 的 第 一 层 更 多 地 响应 于 输入 听觉 信号 
的 快速 变化 ， 反 之 ， 模 型 的 第 二 层 响 应 于 输入 的 较 慢 变化 。 

简单 地 说 ， 通 过 相关 ICA 学 习 的 滤波 咒 ， 当 作用 于 自然 声音 的 时 候 ， 基 带 滤波 器 显示 为 
展示 出 相似 于 耳蜗 核 和 下 丘 的 生物 神经 元 的 性 质 。 


10.19 速率 失真 理论 和 信息 瓶颈 


到 有 目前 为 止 ， 我们 集中 于 信息 论 的 两 个 基本 概念 ( 粹 和 互信 息 〉 作 为 学 习 信 息 论 学 习 的 两 
个 支柱 。 在 这 一 节 中 ,我 们 转向 信息 论 学 习 中 另 一 个 富有 启发 性 的 速率 失真 理论 。 在 我 们 的 思 
想 中 这 一 方法 被 称 之 为 信息 瓶颈 方法 ， 在 Tishby 等 (1999) 中 首次 提出 。 

速率 失真 理论 ， 作 为 香农 信息 论 (香农 ，1948〉 的 固有 部 分 ， 处 理 具有 可 能 失真 数据 的 压 
缩 ， 其 有 目的 的 应 用 导致 了 总 数 可 测量 的 数据 失真 。 压 缩 数据 的 动机 在 于 产生 数据 的 新 的 流 使 
得 从 平均 上 比 原始 的 数据 流 需要 更 少 的 字 位 数目 来 表示 或 者 传输 。 

为 了 给 介绍 信息 瓶颈 方法 铺 平 道路 ， 我 们 从 速率 失真 理论 开始 讨论 。 
速率 失真 理论 . 

给 定 一 个 信息 源 产 生 的 数据 流 ， 速 率 失真 理论 的 目的 在 于 寻找 在 具体 的 信息 流速 率 下 可 达 
到 的 失真 的 最 小 期 望 值 ， 或 者 等 价 于 ， 对 于 预定 的 失真 层 寻找 可 达到 的 信息 流 的 最 小 速率 。 

车 要 从 分 析 术 语 上 来 说 明 这 一 理论 ， 令 XX 记 概率 密度 函数 px (x) 的 一 个 随机 向 量 ， 由 一 个 
信息 源 产生 。 相 应 地 ， 令 概率 密度 函数 q (OHNE TER X 的 一 个 压缩 版 本 。( 注 意 我 们 
对 分 布 X 和 工 采用 不 同 的 记号 。〉 根据 式 (10. 28) 的 最 后 一 行 , X 和 下 之 间 的 互信 息 表示 为 
gr|x Ct|x) 


aa ) dxdt 





I(X;T) 一 | | px x) qrlx(t|x)log( 
co J 一 co 、 — v 


联合 pdf 
其 中 qrt OERE X H T 的 条 件 概 率 密度 函数 。 关 于 向 量 X 和 了 T 之 间 的 距离 测量 ， 使 用 记 
号 d(x， 引 ， 这 里 x 和 tt 分 别 记 关 和 T 工 的 样本 值 。 期 望 失真 定义 为 : 
Elda =| | pxCdar|xCt|xd x,t dxdt (10. 168) 
neo} ee 
联合 pdf 
速率 失真 理论 自身 通过 一 个 称 为 速率 失真 函数 的 函数 来 刻画 ， 记 为 尺 (D)。 
有 了 目前 的 记号 背景 ， 我 们 现在 可 以 正式 地 表示 速率 失真 理论 如 下 (Cover and Thomas， 
2006); 
寻找 速率 失真 函数 
RCD) = min (X; T) 


rix 


其 失真 约束 为 
E[d(x,t)]<D 


从 这 一 陈述 ， 很 明显 地 计算 速率 失真 函数 RCD) 包含 解 下 述 约束 优化 问题 : 
在 源 及 其 表示 之 间 最 小 化 互信 息 ， 服从 预定 的 失真 约束 。 
这 一 优化 问题 能 通过 Blahut-Arimoto 算法 (Cover and Thomas 2006) 来 解 ， 这 是 通过 在 


两 个 未 知 分 布 的 凸 集 之 间 的 交互 投影 来 做 ， 如 10. 21 节 所 讨论 的 那样 。 
速率 失真 理论 的 最 大 成 果 在 于 ， 证 明 速 率 失真 函数 是 一 个 给 定期 望 失真 数据 的 任意 描述 的 
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速率 〈 编 码 长 度 ) 的 渐进 可 达到 的 下 界 。 
信息 瓶颈 方法 

信息 瓶颈 方法 建立 在 速率 失真 理论 基础 上 ， 通 过 “相关 变量 ”信息 ?来 代替 失真 项 。 在 多 
个 应 用 中 ,“ 真 实 失 真 ”度量 是 未 知 的 或 者 未 定义 的 ， 但 是 关于 其 的 另 一 个 变量 我 们 可 以 保留 
一 些 给 定 信息 。 语 音 识别 问题 是 一 个 好 的 例子 。 在 这 一 问题 中 ， 众 所 周知 的 困难 是 形成 能 正确 
捕捉 人 类 声音 感知 的 失真 函数 ， 给 出 一 些 对 话 字 的 样 例 以 及 它们 的 语音 录制 更 容易 。 在 这 样 的 
例子 中 ， 我 们 寻找 高 箭 语音 信号 的 压缩 来 尽 可 能 多 地 保留 低 箭 语音 序列 的 信息 。 关 于 这 一 类 协 
同 出 现 数据 的 重要 例子 是 那些 其 失真 函数 不 能 直接 提供 的 例子 : 单词 和 主题 ， 图 像 和 物体 ， 基 
因 表 达 和 组 织 样本 ， 以 及 刺激 和 神经 响应 。 信 息 瓶颈 方法 已 经 被 成 功 应 用 于 这 类 数据 (Slonim 
等 ，2006) 。 

信息 瓶颈 理论 是 通过 引信 记 为 了 的 辅助 《相关 ) 随机 向 量 来 实现 的 。 这 一 新 的 随机 向 量 是 
(随机 地 ) 依赖 于 原始 的 ， 通 常 是 高 精 的 随机 向量 X 的 。 因 此 ， 互 信息 I(X;Y) 是 非 零 的 。 

X 是 将 要 压缩 的 随机 向 量 ，Y 是 我 们 将 预测 的 〈 或 者 是 关于 其 我 们 将 保持 尽 可 能 多 的 信 
息 ) 随机 向 量 。 通 过 引入 瓶颈 随机 向 量 T 作 为 原始 随机 向 量 X 的 压缩 表示 ， 实 际 上 ， 我 们 已 
经 构造 了 两 个 信息 量 之 间 的 权衡 或 瓶颈 ， 一 个 是 关于 X 包含 在 了 中 ; 另 一 个 是 关于 Y 包含 在 
T 中 。 

特别 地 ， 我 们 将 通过 满足 组 合 方式 下 的 两 个 目标 来 解 信息 瓶颈 ， 

1. 将 原始 〈 高 炳 ) 随机 向 量 X 的 样本 值 按照 这 样 的 方法 分 解 : 关于 相关 随机 向 量 Y 保存 
尽 可 能 多 的 互信 息 。 

2. 关于 原始 随机 向 量 X 损失 尽 可 能 多 的 信息 来 获得 最 小 分 解 的 最 简单 形式 。 

因此 ， 在 X 的 所 有 特征 表示 特性 中 ， 问 题 在 于 决定 仅 有 的 那些 和 Y 的 预测 最 相关 的 特性 。 

基本 上 ， 信 息 瓶颈 理论 被 设计 为 寻找 最 优 相关 数据 表示 。 问 题 如 下 : 

给 定 随机 向 量 和 和 相关 随机 向 量 了 的 联合 概率 密度 函数 ,在 六 的 关于 提供 信息 的 祥 本 
值 中 提取 最 小 充分 分 解 ， 通 过 未 知 分 布 br|x(tlx) 来 最 小 化 如 下 信息 瓶颈 函数 来 寻找 瓶颈 随机 
向 量 T。 

J (qrlx(t|x)) = I(X;T) — BL(T;Y) (10. 169) 


BA TREX LY RMP T OER, BRANAR. 


正 的 拉 格 朗 日 乘 子 8 是 压缩 (最 小 表达 ) 和 可 预测 性 (信息 保存 ) 之 间 的 权衡 参数 。 通 过 
在 0 和 无 穷 大 之 间 变 化 这 一 参数 ， 可 获得 一 个 目的 信息 曲线 ， 类 似 于 速率 失真 函数 ， 它 提供 了 
压缩 和 预测 之 间 的 最 优 可 达 权 衡 。 
例 11 高 斯 信息 瓶颈 
对 于 信息 瓶颈 方法 的 一 个 分 析 处 理 ， 对 于 对 数 函 数 的 导数 ， 我 们 可 以 考虑 特征 向 量 问题 的 
耦合 对 : 
Slogpxr (x | t) 和 六 logpwr Cy| 


通常 因为 解决 这 类 问题 较 困 难 ， 我 们 转向 分 析 上 易 处 理 的 例子 ， 此 时 ， 原 始 随 机 向 量 XX 和 其 压 
缩 版 本 Y 通过 联合 多 变量 高 斯 分 布 来 描述 ， 如 在 Chechik 等 (2004) 中 那样 。 在 高 斯 框架 下 解 
特征 向 量 问题 的 克 合 对 有 助 于 典范 相关 分 析 (CCA)， 正 如 10. 10 节 所 述 ， 这 是 Imax 原则 的 一 
个 特例 。 我 们 因而 发 现 要 解决 的 这 一 问题 是 寻找 对 子 空间 的 线性 投影 ， 其 维 数 是 由 权衡 参数 8 
决定 。 特 别 地 ， 随 着 参数 8 增长， 附加 维 数 〈 即 特征 值 ) 被 添加 到 投影 〈 瓶 颈 ) 向 量 T 中 ; 通 
过 一 系列 临界 点 或 结构 相 变 这 一 附加 表明 了 其 自身 ， 同 时 每 个 基 向 量 的 相关 网 几 里 得 范 数 被 重 
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定 比 例 。 继 续 这 一 维 数 扩展 过 程 直 到 关于 压缩 向 量 YOK RRA RAM ee Tp. x 
一 过 程 的 网 络 结果 是 在 信息 论 项 中 对 于 变化 8 而 言 信息 瓶颈 方法 是 如 何 提供 一 个 连续 模型 复杂 
度 测 量 的 洞察 性 说 明 。 1.0 
对 于 在 Chechik 等 (2004) 中 研究 的 高 斯 框 
W, 图 10.21 画 出 了 对 于 变化 的 8 而 言 互信 息 
I(T;Y) 和 互信 息 ICT; OSAMA. EA 
10. 21 中 连续 平滑 曲线 表示 信息 曲线 ， 是 从 4 个 iry 
特征 值 4; =0.1,0.5, 0.7, 0.9 中 获得 的 。 相 应 
地 ， 在 图 中 用 小 圆圈 来 表示 临界 点 。 信 息 曲线 
(通过 这 些 临界 点 ) 从 几 个 分 段 中 构造 ， 实 现 了 
随 着 互信 息 工 CT;X) 的 增长 ， 附 加 特征 向 量 被 用 
于 投影 。 为 了 比较 ， 图 10. 21 也 给 出 了 每 个 8 用 5 10 ex's 20 25 
小 数目 的 特征 向 量 计算 的 信息 曲线 。 
由 图 10. 21 中 的 结果 可 知 ， 高 斯 信息 瓶颈 方 














L L — 1 





图 10.21 多 变量 高 斯 变量 的 信息 曲线 。 包 络 是 最 
优 压 缩 -预测 权衡 ， 通 过 从 0 到 无 穷 大 改 


法 信息 曲线 是 处 处 止 的 。 在 互信 息 1(T;X) 上 的 AS RING BY A JRE 8 来 捕捉 。 在 每 一 点 曲 
每 一 个 值 ， 信 息 曲 线 被 切线 所 界 ， 甚 斜率 由 天 线 的 斜率 由 1/8 给 定 。 总 是 存在 6 的 临 
数 B71CICT;XX)) 所 定义 。 在 原点 ，I《T;X) 王 0， 界 低 值 决定 了 原点 的 斜率 ， 低 于 其 仅 有 
斜率 B71 C0) 三 1 一 入 , Heb a, 是 原始 随机 向 量 X 平凡 解 。 次 优 曲 线 是 在 TT 的 维 数 限 制 在 


固定 低 值 时 获得 (这 一 图 的 复制 得 到 了 
及 其 压缩 版 本 Y 的 典范 相关 分 析 的 第 一 个 特征 Neftalt Tishby MENRE 


值 。 注 意 信 息 曲 线 的 渐进 斜率 是 0， 即 Boo, 
这 一 逼近 行为 简单 地 反映 了 报酬 渐 减 律 的 实现 ; 在 原始 随机 向 量 X 的 描述 中 增加 更 多 的 字 位 信 








息 对 于 瓶颈 向 量 不 提供 增加 的 精确 度 。 a 
信息 瓶颈 方程 
信息 瓶颈 最 优 问题 的 解 是 通过 下 列 描述 向 量 T 的 瓶颈 方程 来 给 出 的 : 
grix(t| x) 一 Big pyr Pre (10. 170) 
ar(b = Dar tO px (x) (10. 171) 
gur(y(t) = Dany andthe) (10. 172) 


ERCO. 170p, Dor AA Fe BE R A 
br YOM gr Cy | t) ZERAN R, Zp) 
是 归 一 化 〈 分 解 ) 函数 。 图 10. 22 描述 了 在 这 三 
个 方程 的 启发 下 的 信息 瓶颈 思想 。 





ARAO 170) 到 式 (10.172) 的 系统 ， 我 们 必须 IXT) IOY) 

y 三 个 x t 9 t ™( t)4 

对 于 三 个 未 知 分 布 sr| x00» gO a| YD 分 困 10 22 信息 其 类 方法 的 一 种 描述 。 Cae 

别 独立 地 求解 。Tishby $ (1999 证 明了 通过 始 随机 向 量 X 关于 相关 变量 Y 的 相关 部 

从 一 个 随机 分 布 开 始 以 和 速率 失真 理论 的 分 ,通过 最 小 化 信息 TCX 了 ) 的 同时 保持 

Blahut-Arimoto 迁 代 相似 的 方式 迭代 这 些 方程， ae alos nto. an bak tan 
> drix X)s dr Gy iT Æ» TA 

方程 收敛 到 参数 8 的 任意 值 的 最 优 解 。 表示 了 上手 颈 方程 (10. 170) 到 (10. 172) WAR 


信息 瓶颈 问题 能 用 于 解决 获得 相关 连续 流 形 
( 维 数 前 减 ;， 如 Chechik 等 (2004) 对 于 高 斯 变量 所 示 ， 或 者 如 下 一 节 根 据 Chigirev and Bi- 
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alek(2004) 所 讨论 的 那样 。 
10.20 ”数据 的 最 优 流 形 表 达 


在 第 7 章 中 ， 我们 从 正则 化 的 角度 使 用 光谱 图 理论 讨论 了 数据 的 非 监 督 流 形 表达 。 在 这 一 
节 中 ， 我 们 回顾 同样 的 问题 ， 但 这 一 次 我 们 从 信息 论 的 角度 来 达到 这 一 点 。 更 具体 地 说 ， 这 里 
采用 的 方法 来 自 于 Chigirev and Bialek(2004) ， 它 建立 在 如 下 的 理解 上 : 

将 维 数 测 减 视 为 数据 压缩 问题 可 以 获得 分 析 上 的 利益 。 

数据 表达 的 Chigirev-Bialek 方法 实际 上 是 前 一 节 讨 论 的 信息 瓶 希 方法 的 明智 的 应 用 。 
视 为 数据 压缩 的 维 数 削 减 : 基本 公式 

从 第 7 章 的 讨论 我 们 回顾 到 ， 从 直观 上 ， 流 形 是 指 -一 个 媒人 在 m - 维 欧 几 里 得 空间 中 的 


 - 维 连续 区 域 ( 例 如， 一 个 曲线 或 一 个 曲面 );， 其 中 是 小 于 m 的 。 在 数据 的 流 形 表 达 中 ， 我 


们 想象 流 形 维 数 低 于 数据 维 数 。 尤 其 这 个 流 形 “ 几 乎 完美 ”地 描述 了 数据 ， 因 为 不 可 避免 地 存 
在 加 性 噪声 和 其 他 形式 的 数据 退化 。 

令 U 记 一 个 维 数 为 上 的 流 形 ，qx (ob 记 流 形 上 点 的 概率 密度 函数 ; u 表示 这 样 的 一 个 点 。 令 
X 记 一 个 m 维 的 随机 数据 向 量 ，m 大 于 &， 这 实际 上 暗示 了 由 TRI ALAR Av eth, 
而 且 ， 正 由 于 数据 集合 的 稀 朴 性 使 得 其 非 监督 表示 成 为 一 个 具 挑 战 性 的 任务 。 令 au 1XCulz) 记 
给 定数 据 集 X 时 流 形 上 点 的 条 件 概率 密度 函数 。 因 此 ， 随 机 映射 

Pu: X—> qua | xX) (10. 173) 

HAE TAM x BY u ERS 

RIG (a, Paul 表示 的 ， 这 隐 含 了 数据 集 史 的 “小 于 可 靠 的 表达 ”,， 证 实 了 上 面 所 做 
的 相似 备注 。 从 另 一 个 途径 ， 可 以 说 记 流 形 k 的 一 个 点 的 向 量 u 是 数据 点 x 的 失真 版 本 一 一 因 
此 需要 一 个 记 为 d(x,w) 的 距离 测 景 。 为 了 简化 问题 ， 我 们 对 这 一 测量 采用 欧 几 里 得 距离 函数 ， 
如 下 所 示 : 





d(x,p) = ||x—pll* (10. 174) 
这 是 通常 所 使 用 的 距离 。 因 此 期 望 失 真 被 定义 为 双重 多 维 积分 : 
FFd (x.p) ] =| |- by CO quix (|X) |] x — p || ?dxdp (10. 175) 











其 中 pr (x) 是 数据 集 久 的 概率 密度 函数 ， 其 样本 值 由 数据 点 x 来 表示 。 

式 (10.175) 是 数据 压缩 问题 的 一 个 重要 方面 。 第 二 个 重要 方面 是 流 形 和 数据 集 史 之 间 的 
互信 息 ， 定 义 为 : 

T(E; NM) = | ba CO gaye log( WELE) axdu (10. 176) 
联合 pdf 

当 对 数 是 以 2 为 基数 时 ， 这 一 互信 息 定义 了 将 数据 点 x 编码 到 流 形 刀 上 点 所 需要 的 字 位 的 个 
数 。 此 外 ， 通 过 将 维 数 削 减 视 为 数据 压缩 问题 、I(U; M 定义 了 给 定数 据 向 量 x 作为 输入 时 
需要 传输 压缩 数据 u 的 频道 “容量 ”。 

当 放 在 一 起 看 时 ， 式 (10. 175) 和 式 (10. 176) 呈 现 出 包含 两 个 基本 问题 的 权衡 ; 

L 关于 数据 的 一 个 “可 靠 的 ” 流 形 表 达 ， 需 要 最 小 化 式 (10. 175) 的 期 望 失真 。 

2 另 一 方面 ， 对 于 -一 个 “好 的 ”将 数据 压缩 到 流 形 上 的 点 的 压缩 而 言 ， 需 要 最 大 化 由 式 
(10. 176) 定 义 的 互信 息 。 

为 了 解 这 一 权衡 ， 我 们 引入 最 优 流 形 的 概念 〈Chigirev and Bialek, 2004): 
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给 定数 据 集 史 和 频道 容量 IC; M)， 如 果 下 面 的 两 个 条 件 得 到 满足 则 流 形 M 被 称 为 数据 
RX 的 最 优 表达 : 

Gi) HARRELL, w) JME. 

GD 仅 由 频道 容量 IA; AM) 定义 的 字 位 数 需要 用 于 表示 数据 点 x。 

定义 最 优 流 形 的 另 一 个 途径 ， 如 下 所 示 : 

流 形 是 最 优 的 ， 如 果 频 道 容量 IA, M 在 期 望 失真 国定 在 某 个 预先 指定 的 值 时 最 大 化 。 


不 管 哪 一 种 途径 ， 我 们 都 面 对 速 率 失真 理论 中 的 问题 。 根 据 10. 19 节 的 讨论 ， 由 于 这 一 问 
题 是 约束 优化 问题 ， 我 们 引入 拉 格 朗 日 乘 子 人 来 说 明 期 望 失 真 和 频道 容量 之 间 的 权衡 ， 如 下 
所 示 : 





F(M,Py) = Eld (xp) j++ al (3M) (10. 177) 
为 了 找到 最 优 流 形 ， 必 须 最 小 化 这 一 函数 。 
要 从 分 析 术 语 上 来 实现 最 小 化 ， 我 们 需要 参数 化 流 形 。 根 据 10. 19 节 的 信息 瓶颈 方法 ， 引 
人 瓶颈 向 量 T， 它 的 一 个 样本 值 记 为 上 E R'， 这 里 新 的 维 数 ! 小 于 或 等 于 数据 向 量 z 的 维 数 m 。 
我 们 也 引信 一 个 新 的 向 量 值 函 数 : 
y(t) : t> M (10. 178) 
这 将 由 产 颈 向 量 T 张 成 的 参数 空间 的 点 ft 英 射 到 流 形 M。 因 而 向 量 值 函 数 rO IE M 的 一 
个 “描述 符 ”。 假设 r(t) 的 维 数 和 数据 点 x 的 维 数 相同 ， 因 此 可 以 用 平方 欧 几 里 得 距离 
| x 一 上 《tb 由 ?作为 使 用 流 形 M 表达 数据 集 % 时 产生 的 失真 的 新 的 测量 。 
根据 刚刚 讨论 过 的 流 形 参 数 化 ， 我 们 重新 将 两 个 基本 公式 (10. 175) 和 式 (10. 176) 分 别 表示 
为 新 的 形式 : 





El d¢x,y(t))] = [oF exo ana dt] 0 | x — y(t) || dxdt (10. 179) 
xD =| © paar (| log #2 ED) axat (10. 180) 
相应 地 ， 式 (10. 177) 的 函数 下 重新 写 为 新 的 形式 : 
FOD san (t|) 一 ELCt x, yO) J] + al (XT) (10. 181) 
在 后 一 公式 中 期 望 失真 和 频道 容量 都 是 由 (M Pa) 措 述 的 流 形 的 图 有 性 质 ， 且 这 些 性 质 在 再 
参数 化 时 是 不 变 的 。 


通过 式 (10. 179) 和 式 (10. 181)， 现 在 可 以 寻找 最 优 流 形 。 通 过 应 用 下 面 两 个 优化 条 件 来 
实现 : 
OF 


ayn 2 ,对 于 男 定 的 aux (t |x) (10. 182) 
oF — H 
一 2 一 一 0 ,对 于 固定 的 Y(t) (10. 183) 
grix Ct |x) 


因此 ， 应 用 条 件 1， 获 得 : 
| px DO qnx(t |X) (— 2x + 2) dx = 0 
这 导致 下 面 的 方程 对 ， 从 概率 术语 上 讲 它们 是 相 容 的 : 
Do | 
= ~- ` 4 
YD = ip] xPx 00 gn tl Dax (10. 184) 


gr(t) = F Px (xX)grix (t| x) dx | (10. 185) 
方程 对 的 推导 仅仅 从 函数 下 的 期 望 -失真 分 量 而 来 ， 因 为 仅 有 这 一 分 量 依赖 于 rO 一 一 因此 缺 
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少 了 拉 格 朗 日 乘 子 2. 
然而 ， 当 继续 应 用 式 (10. 183) 定 义 的 第 二 个 最 优 条 件 时 ， 我 们 必须 认识 到 这 一 最 优化 包含 
了 条 件 gr|x(t|x) 在 下 述 约束 下 的 所 有 可 能 值 ， 

F anx(tlodt=1, 对 于 所 有 x 


该 约束 仪 仅 是 需要 在 曲线 gr|xCtjx) 下 的 区 域 是 单位 1， 这 是 每 一 个 概率 密度 函数 的 基本 人 性质。 
为 了 满足 这 一 附加 约束 ， 我 们 对 所 有 x S| A RO a A RT 8(x) 并 因此 扩展 函数 下 的 定义 
来 获得 : 


FOO) ,qnx tl) = | a (pr oanx Gt] xD x= yD Il? 


+ Apx Cx) gnx Ct log( 2) + BOOgnx(t|x)} dtdx (10. 186) 
x 


其 中 or(b 如 式 (10. 185) 中 定义 的 那样 。 
因此 ， 引 用 式 (10. 183) 的 第 二 个 最 优 条 件 到 函数 下 的 这 一 新 的 形式 中 并 且 通 过 式 
(10. 185) 来 简化 项 ， 可 得 : 


+ |x= yD |]? + log( PY) + BOO 一 0 








gr (t) Apx (x) 
HE, $ 
BCx) — 
PES logZ(x,à) (10. 187) 
并 且 对 于 期 望 条 件 gr|x(t|x) 解 结果 方程 ， 得 到 第 二 个 公式 对 ， 它 们 在 概率 术语 上 也 是 相 容 的 ， 
— gr (t) 1 2 
anix (t| x) Peper 二 | x 一 YCb | ) (10. 188) 
和 
ZCxh) = F gr(texp(— + | x— y(t) ||?) at (10. 189) 
函数 Z(x，)) 扮 演 了 归 一 〈 分 解 ) 函数 的 角色 ， 式 (10. 188) 中 包含 了 该 项 保证 了 加 于 ar(t) 的 
约束 得 到 满足 。 


式 (10. 184) 、 式 (10. 185) 、 式 (10. 188) 和 式 (10. 189) 在 非 监督 方式 下 描述 了 数据 表达 的 最 
优 流 形 。 该 描述 自然 需要 连续 概率 密度 函数 px (x) 的 知识 。 
离散 过 程 

然而 ， 在 实际 上 ， 我 们 仅 有 记 为 {zi} 六 ;的 训练 样本 多 其 中 N 是 样本 大 小 。 根 据 这 一 实 
际 情况 ， 我 们 引 人 和 人 离散 逼近 : 


px (x) ~ Nox x) (10. 190) 
其 中 8(*) 记 Dirac delta 函数 。 相 应 地 ， 通 过 下 面 的 离散 集 来 模型 化 流 形 妨 ; 
T= {t (10. 191) 


然后 ， 注 意 到 瓶颈 向 量 了 的 样本 值 上 仅仅 显示 为 函数 r(tb) 、 条 件 gr|x(t|x) 和 边缘 qr H A E 
量 ， 我 们 可 以 用 这 三 个 连续 函数 的 各 自 的 离散 部 分 y Gan, g 来 代替 它们 ， 其 中 下 标 i 和 
7 用 于 强调 离散 过 程 。 为 了 完成 离散 过 程 ， 引 入 a 来 记 欧 几 里 得 空间 RR” 的 坐标 索引 。 

现在 有 了 流 形 的 离散 模型 ， 目 标 是 在 迭代 方式 下 开发 用 于 计算 模型 的 算法 。 为 了 该 骨 的 ， 
首先 注意 式 (10. 188) 和 式 (10. 189) 分 别 定义 了 qr|x《t|x) 和 ZCr，4)， 对 他 们 各 自 的 变量 t 和 x 
都 是 凸 函数 ， 拉 格 朗 日 乘 子 4 是 预先 定义 的 参数 。 从 计算 上 讲 ， 这 两 个 公式 是 流 形 的 离散 模型 


~ 
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的 困难 部 分 。 

为 了 更 进一步 说 明 如 何 能 够 降低 这 一 计算 困难 ， 考 虑 如 图 10. 23 所 示 的 两 个 凸 集 4 各。 将 最 小 
化 它们 之 间 的 欧 几 里 得 “距离 ” 这 一 距离 定义 为 d(x，y)， 其 中 zx 和 yy 分别 是 集合 4 和 锡 中 任意 的 
两 个 点 。 最 小 化 欧 几 里 得 距离 的 直观 方法 如 下 所 述 (Csiszat and Tusnady, 1984); 


固定 集合 A 中 的 点 Xx， 寻找 集合 中 最 靠近 它 的 点 y。 然 后 固定 新 发 现 的 点 v， 在 集合 A 中 如 
找 最 靠近 它 的 点 x, 


如 果 用 往返 于 集合 和 久之 间 的 方 








代 而 逐渐 变 小 。 这 正 是 在 最 小 化 速率 a 
失真 函数 的 Blahut-Arimoto 算法 
(Blahut, 1972; Arimoto, 1972) 中 
所 做 的 那样 。 式 (10. 188) 和 式 (10. 189) 
具有 和 速率 失真 函数 的 特征 中 发 现 的 那些 共有 相同 的 数学 形式 (Cover and Thomas, 2006). 。 而 
且 ， 在 Csiszar and Tusnady(1984) 中 证 明了 在 两 个 凸 集 % 和 钢 之 间 的 交 硅 过程 将 收 伍 ， 如 果 这 
两 者 都 是 概率 分 布 集合 且 距 离 测 量 采 用 两 个 分 布 之 间 的 相对 灶 。 
计算 数据 的 最 优 流 形 表示 的 选 代 算法 

根据 这 些 可 靠 的 结果 ， 我 们 可 以 继续 构成 计算 流 形 的 离散 模型 的 迭代 算法 。 令 n WARRE 
的 时 间 步 。 然 后 ， 利 用 式 (10. 184) 、 式 (10. 185) 、 式 (10. 188) 和 式 (10. 189) 的 离散 版 本 并 采用 工 -点 
离散 集合 (botot) 来 模型 化 由 连续 变量 上 表达 的 流 形 ， 我 们 现在 就 构成 了 基于 下 面 4 个 公式 集 
的 期 望 算 法 ， 其 中 时 间 步 n 一 0,1,2,…, HRS) j = 1,2,…,L(Chigirev and Bialek,2004) : 


式 来 延续 这 一 过 程 ， 正 如 图 10. 23 所 > 
示 ， 那 么 距离 d(x，y) 将 随 着 每 次 迭 集合 一 一 一 | 集合 
B 





图 10. 23 if SAT RAAB |e) Pe A 


N 
bin) = >) Ps od) (10. 192) 
i=} 
a(n) = ae La.) (xen) a = 12st om (10. 193) 
joa pn) N 全 ia i i ? 
了 
Ze dom) = D p (mdexp(—+ Ix — v I?) (10. 194) 


piCxXisnt 1) 一 Zx, An) n) 


其 中 zi 为 数据 向 量 X; 的 第 a 个 元 素 。 
为 了 初始 化 算法 ,我 们 从 数据 集 多 中 随机 选取 工 个 点 且 令 : 


exp(— + | x; — Y; (n) I?) (10. 195) 


rO _ i} j= 1,2,…,L (10. 196) 
为 了 终止 计算 , 令 。 记 流 形 点 将 要 位 于 的 精确 度 。 在 时 间 步 长 为 n 时 ， 一旦 满足 下 述 条 件 ， 算 
法 就 得 终止 

max | Y; (7) — Yn—1)|<e 
余下 需要 设置 的 参数 是 拉 格 朗 日 乘 子 +， 它 决定 了 包含 在 函数 正中 的 期 望 失真 和 频道 容量 之 间 
的 权衡 。 参 数 处 于 设计 者 的 控制 下 ， 依 赖 于 这 样 的 权衡 是 如 何 实 现 的 。 
实际 考虑 

式 (10. 192) 到 式 (10. 195) 的 计算 数据 的 最 优 流 形 表达 的 算法 ， 是 设计 于 约束 流 形 点 和 原始 
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数据 空间 点 之 间 的 互信 息 。 这 一 约束 是 关于 这 两 个 空间 中 所 有 的 可 道 坐 标 变换 不 变 的 一 一 可 能 
在 某 种 隐 含 意义 上 增强 流 形 的 平滑 性 〈Chigirev and Bialek，2004)。 从 理论 框架 上 来 看 ， 利 用 
计 息 论 方法 的 平滑 流 形 的 证 明 可 能 不 如 根植 于 正则 理论 的 方法 。 虽 然 如 此 ， 数 据 的 最 优 流 形 表 
达 从 实际 上 工作 满意 。 

更 重要 的 是 ,不 像 其 他 维 数 前 减 方法 例如 ， 第 7 章 讨论 的 基于 正则 化 光谱 图 理论 的 Bel- 
kin-Niyogi 方法 )， 本 市 中 讲述 的 信息 论 算 法 的 收敛 时 间 对 样本 大 小 N 是 线性 的 。 这 一 算法 的 
高 度 期 望 特征 属于 描述 流 形 的 公式 的 固有 凸 性 ， 使 得 其 应 用 更 具 吸 引力 ， 尤 其 当 我 们 处 理 实际 
中 大 型 数据 集 的 维 数 前 减 的 困难 任务 时 更 是 如 此 。 

算法 的 另 一 高 度 期 望 特征 包括 下 面 两 点 : 

。 所 考虑 的 流 形 的 维 数 知 识 是 不 需要 的 。 

。 这 一 算法 很 好 适用 于 处 理 称 恼 数据 的 维 数 亨 减 ， 这 一 点 是 重要 的 ， 因 为 在 高 维 空间 中 

所 有 的 数据 集 都 是 典型 稀 朴 的 。 


10.21 计算 机 实验 : 模式 分 类 


该 计算 机 实验 利用 了 两 个 算法 的 组 合 : 首先 是 用 于 非 监 督 聚 类 的 输入 数据 的 最 优 流 形 表 
达 ， 其 次 是 采用 在 第 3 章 讲述 过 的 监督 分 类 的 最 小 均 方 LMS) 算法 。 通 过 不 同 的 应 用 ， 这 两 
个 算法 分 享 了 两 个 有 用 的 性 质 ， 有 效 性 能 和 计算 高 效 。 

为 了 研究 组 合 “ 最 优 流 形 - LMS” 算 法 的 性 能 ， 我 们 再 次 从 图 1. 8 的 双 月 结构 中 随机 提取 
数据 ， 其 双 月 之 间 的 垂直 分 隔 固 定 为 4 一 一 6。 图 10. 24 给 出 了 实验 结果 ,通过 双 月 之 间 近 乎 
相等 共享 的 20 个 中 心 来 计算 。 在 用 300 个 数据 点 进行 监督 训练 下 算法 构造 的 决策 边界 将 从 双 
月 中 提取 的 数据 “几乎 无 下 ”的 方式 分 丫 开 。 更 精确 地 ， 在 2 000 个 测试 数据 点 中 有 6 个 分 类 
错误 ， 说 明了 误 分 类 错误 率 为 0.3% 。 对 双 月 配 置 的 相同 设置 而 言 ， 这 一 性 能 接近 于 支持 向 量 
HL (SVM) 的 无 误 性 能 ， 这 在 6.7 节 中 已 经 介绍 过 。 从 这 一 比较 中 得 到 的 重点 是 在 部 分 SVM 
的 计算 复杂 度 的 基础 上 ， 最 优 流 形 - LMS 算法 达到 了 和 SVM 接近 的 性 能 。 














图 10.24 图 1.8 中 双 月 构造 的 模式 分 类 ， 使 用 最 优 流 形 十 LMS 算 法 ,距离 4 一 一 6， 有 20 个 中 心 


10.22 小 结 和 讨论 
在 篇 幅 较 长 的 本 章 中 ， 我 们 将 香农 信息 论 作为 研究 自 组 织 或 者 非 监 督学 习 的 多 个 重要 方面 
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的 基本 统计 工具 来 建立 一 一 这 是 真正 值得 注意 的 成 果 。 
作为 自 组 织 目 标 摧 数 的 互信 息 


在 输入 和 输出 随机 过 程 之 间 的 香农 互信 息 ， 具 有 一 些 唯一 的 性 质 ， 这 些 性 质 使 其 可 作为 自给 
织 学 习 的 目标 函数 ， 从 而 被 优化 。 事 实 上 ， 一 些 重 要 的 自 组 织 原 则 在 本 章 的 讨论 中 已 经 出 现 过 : 

1. Infomax 原则 ， 这 包含 了 最 大 化 神经 网 络 的 多 维 输入 和 和 输出 向 量 之 间 的 互信 息 。 这 一 愿 
则 制定 了 自 组 织 模 型 和 特征 映射 的 开发 框架 。 

2. 最 小 元 余 原则 ， 这 基本 上 是 另 一 种 最 大 化 网 络 的 输入 和 输出 之 间 的 互信 息 导 致 元 余 最 
小 化 的 说 法 。 

3. Imax 原则 ， 这 是 最 大 化 一 对 神经 网 络 的 单一 输出 之 间 的 互信 息 ， 这 对 神经 网 络 是 由 两 
个 空间 位 移 多 维 输 入 向 量 所 驱动 的 。 该 原则 非常 适合 于 锋 像 处 理 ， 目 标 是 发 现 带 噪声 传 感 的 输 
人 在 空间 和 时 间 上 表现 的 相干 性 。 

4. Imin 原则 ， 这 是 最 小 化 一 对 神经 网 络 的 单一 输出 之 间 的 互信 息 ， 这 对 神经 网 络 是 由 两 个 空间 
位 移 多 维 输 入 向 量 所 驱动 的 。 该 原则 在 图 像 处 理 中 的 应 用 目标 在 于 最 小 化 同一 环境 中 两 幅 相 关 图 像 
之 间 的 空间 时 间 相 干 ， 图 像 是 由 具有 正 交 性 质 的 一 对 传感器 获得 的 。 
独立 分 量 分 析 的 两 个 基本 路 径 

本 章 中 讨论 的 另 一 个 重要 的 课题 是 独立 分 量 分 析 (ICA)， 它 为 使 得 一 个 随机 向 景 的 分 量 
尽 可 能 地 统计 独立 提供 了 数学 基础 。 这 一 原则 的 应 用 在 于 解 盲 源 分 离 (BSS) 问题， 其 必要 条 
件 如 下 所 示 : 

。 信号 的 统计 独立 源 。 

。 非 高 斯 源 信和 号， 除非 被 允许 是 高 斯 分 布 的 。 

。 平方 混合 矩阵 ， 这 意味 着 源 信 号 和 观测 在 数字 上 是 相同 的 。 

。 无 噪 混合 模型 。 

基本 上 ,推导 ICA 算法 有 两 种 途径 : 

1. 独立 分 量 分 析 原 则 (Comon,1994)。 建 立 在 相对 炉 基 础 上 ; 这 一 原则 导致 依赖 于 如 下 
两 个 分 布 的 期 望 代价 函数 的 建立 : 

。 分 离 器 输出 的 参数 概率 密度 函数 。 

。 相应 的 阶乘 分 布 。 

独立 分 量 分 析 原 则 的 应 用 在 两 个 著名 算法 中 得 以 表明 : 

G) ICA 的 自然 梯度 算法 ， 这 是 根据 Amari 等 (1996). 

Gi) ICA 算法 的 Infomax 原则 ， 这 是 根据 Bell and Sejnowski (1995), 

这 两 个 算法 的 主要 优点 是 它们 能 够 适应 环境 的 统计 变化 。 如 果 便 用 了 正确 类 型 的 激活 函 
数 ， 它 们 也 能 够 具有 重 棒 性 ， 这 依赖 于 原始 信和 号 是 超 高 斯 分 布 的 或 是 亚 高 斯 分 布 的 。 

2. BKK AM (Comon, 1994), MARE Ss HET MULE RMA. —i 
Aye Bs Hy BETES EL A I SE. Se SC FastICA 算法 的 建立 ， 
这 是 根据 Hyvärinen and Oja(1997), FastICA 算法 的 有 吸引 力 的 特征 包括 : 

。 收敛 的 快速 速率 。 

。 无 需 学 习 率 参数 。 

。 和 鲁 棱 性 ， 无 需 源 是 否 超 高 斯 或 者 亚 高 斯 分 布 的 信息 。 

。 实现 简单 性 。 

然而 ， 由 于 缺少 学 习 率 参数 ，FastICA 算法 不 能 跟踪 时 间 变 化 混合 。 

在 三 个 不 同 的 ICA 算法 中 存在 的 一 个 问题 ， 如 下 描述 : 
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在 一 个 大 的 ICA 框架 下 ,互信 息 、 焙 和 非 高 斯 性 之 间 具 有 什么 联系 ? 在 没有 采取 某 种 去 
相关 约束 的 情况 下 。 


为 了 处 理 ICA 理论 的 这 一 基本 问题 ，Cardoso(2003) 提供 了 一 个 了 不 起 的 数学 理解 ， 在 此 范围 
内 统计 相关 、 相 关 性 、 高 斯 性 等 问题 得 到 了 考虑 。 下 面 是 Cardoso 的 论文 中 报告 的 主要 结果 : 

当 放 松 了 预 白 化 的 需要 后 ， 相 对 炉 能 够 在 线性 变换 下 被 分 解 为 两 个 项 的 和 ; 一 项 表示 分 量 的 去 
相关 ， 另 一 项 表示 其 非 高 斯 性 。 

通过 限制 到 线性 变换 ，ICA 实际 上 允许 非 高 斯 分 量 仅 在 边缘 分 布 上 表示 。 

关于 ICA 和 BSS 的 更 多 的 评论 是 ， 这 两 个 概念 彼此 如 此 相近 以 至 于 使 用 其 中 一 种 时 实际 
上 意味 着 另 一 种 。 更 重要 的 是 ，ICA 和 BSS 构成 了 一 个 已 经 扩大 的 领域 ,在 理论 上 和 实际 应 
用 上 都 是 如 此 。 这 一 声明 已 经 通过 一 些 给 人 印象 深刻 的 主题 得 到 了 证 明 ， 这 些 主题 中 的 每 一 个 
都 有 其 自身 的 实际 的 与 众 不 同 的 方向 。( 参 看 注释 和 参考 文献 中 的 注释 22。) 
相关 ICA 

本 章 中 讨论 过 的 另 一 个 ICA 相关 的 原则 是 相关 ICA (Kan, 2007; Haykin and Kan, 
2007) 。 该 新 原则 将 Infomax 和 Imax 原则 组 合 起 来 最 大 化 通过 一 对 具有 相同 维 数 的 多 输入 多 输 
E (MIMO) 网 络 的 输出 的 时 空 相干 ， 当 这 一 网 络 是 由 空间 位 移 数 据 流 驱动 时 。 利 用 现实 数 
据 ， 在 自然 声音 的 听觉 编码 中 发 现 两 个 重要 结果 : 

(i) 相关 ICA 能 够 展示 调幅 调节 ， 因 此 支持 包含 听觉 系统 的 包 络 处 理 概 念 。 

GD 相关 ICA 能 够 学 习 响 应 于 模拟 分 层 听 觉 系 统 方式 的 声音 刺激 的 滤波 器 的 两 个 接连 处 
理 层 的 变化 速率 。 
fej SABA 
ARAMA, RE RA BAAR CRU RAE eS Eb 
的 ， 它 们 是 香农 经 典 信息 论 的 基础 。 在 本 章 的 后 面部 分 ， 我 们 利用 速率 失真 理论 〈 香 农 信息 论 
的 另 一 个 基本 概念 ) 来 构成 本 章 的 最 后 一 个 原则 : 信息 瓶颈 方法 (Tishby , 1999; Slonim 
等 ，2006) 。 要 强调 的 这 一 方法 的 两 个 重要 方面 如 下 所 示 : 

1. 信息 瓶颈 方法 不 是 统计 模型 算法 ， 相反 ， 它 是 寻找 能 够 解释 内 在 结构 和 给 定 变量 集 之 
间 的 统计 相关 的 复杂 数据 的 相关 表达 的 方法 。 

2. 尽管 该 方法 假设 在 输入 向 量 X 和 输出 向 量 Y 之 间 的 联合 概率 分 布 pxy (x，y)， 在 实际 
中 它 被 应 用 到 基于 有 限 样 本 的 经 验 分 布 上 。 这 一 插入 方法 在 Shamir 等 2008) 中 得 到 了 证 明 ， 
其 中 提出 了 关于 学 习 、 泛 化 和 一 致 性 的 定理 。 

有 了 信息 瓶颈 方法 ， 我 们 利用 其 推导 数据 的 最 优 流 形 表达 (Chigirev and Bialek, 2004), 
实现 这 一 表达 的 该 算法 具有 一 些 有 用 的 性 质 ， 

。 算法 的 计算 复杂 度 是 线性 的 ， 它 是 关于 训练 样本 大 小 的 。 

。 算法 不 需要 流 形 维 数 的 知识 。 

。 算法 非常 适合 于 处 理 高 维 数据 ， 这 些 高 维 数据 往往 是 稀 玖 的 。 

作为 结束 评论 : 在 本 节 中 总 结 的 内 容 的 宽度 和 深度 是 关于 香农 信息 论 的 值得 注意 的 影响 的 证 
明 ， 香 农 信息 论 一 开始 是 用 于 通信 系统 的 ， 现 在 已 经 对 非 监督 学 习 模型 和 其 应 用 具有 重要 影响 。 


注释 和 参考 文献 


1 香农 信息 论 
想 进 一 步 了 解 信 息 论 ， 请 参考 Cover and Thomas(2006) 相关 内 容 ; 如 果 想 参考 信息 论 发 展 的 论文 集 〈 包 括 
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1948 年 香农 的 经 典 论文 )， 可 参考 Slepian(1973)。 香 农 的 论文 经 过 一 些小 的 改动 被 重 版 在 Shannon and 
Weaver(1949) 和 和 Sloane and Wyner(1993) 的 书 中 。 
想 对 在 神经 处 理 中 的 信息 论 原 则 作 一 个 简短 的 回顾 ， 可 参考 Atick(1992)。 想 从 生物 的 角度 来 理解 信息 论 方 
法 ， 可 参考 Yockey(1992) 。 
. 信息 论 与 感知 之 间 关 系 的 文献 综述 可 以 参考 Linsker(1990b) 和 Atick(1992) 。 
. Ñ 
(RD PMA “OW WA SRR ATOR, A P AR h 
H =—ky >) p, log pa 


定义 ， 其 中 ks Æ Boltzmann AM, p 是 系统 处 于 状态 a 的 概率 〈 见 第 11 章 )。 除 了 系数 ks 之 外 热力 学 中 
HH H 的 公式 与 式 (10. 8) 给 出 的 箭 的 定义 在 数学 形式 上 是 一 致 的 。 

. KAW AA 

Shore and Johnson(1980) rP HE BH # it F&N F BK A R 2 TE: 


以 约束 形式 给 出 先 验 知识 ， 在 满足 这 些 约束 的 分 布 中 根据 “ 相 容 性 公理 ”(consistency axioms) 能 够 选 
择 唯 一 的 分 布 ; 这 个 唯一 的 分 布 由 最 大 化 精 定 义 。 


相 容 性 公理 包含 四 个 部 分 ， 

. 唯一 性 ; 结果 必须 是 唯一 的 。 

. 不 变性 : 坐标 的 选择 应 当 不 影响 结果 。 

.系统 独立 性 : 无 论 用 不 同 密度 或 用 联合 密度 来 解释 独立 系统 的 独立 信息 都 应 该 是 无 关 紧 要 的 。 

. 子 集 独立 性 : 无 论 用 分 离 的 条 件 密度 或 用 完整 的 系统 密度 来 处 理 独立 的 系统 状态 子 集 都 应 该 是 无 关 紧 
要 的 。 
Shore and Johnson(1980) 证 明 相 对 炳 或 Kullback-Leibler 散 度 同样 满足 相 容 性 公理 。 

. Pythagorean 分 解 

证 明 式 (10. 43) 的 分 解 ， 可 以 进行 如 下 操作 。 由 定义 有 


pe ee (Jar ne) «(FB a 


= -f pxcotog( 2E) dxt | bx (x) log( bat) dx 


i — E — D a! 











— Px (x) 
= Ds, 1 By + f pxColog( 27%) dx (A) 


从 Bx (xX) 和 pu(x) 的 定义 得 到 




















Poe TL ex, (zi) = 
i=] 
令 1 记 式 (A) 最 后 一 行 中 的 积分 ， 可 以 写成 
I (Zz;) 
=f 和 CDlog( 2 2) ax= | pce Ju 
TL, (zi) 
( (xi) "pe bx, < 
= DI oe( 5 5) E px (x)dx® ) dz: = D iog( 元 = T) Br, (a) dn (B) 


上 式 最 后 一 一 行使 用 了 式 (10. 39) 的 定义 。 式 CB) 的 积分 是 Kullback-Leibler 散 度 ， Ds, io t = 1,2, 3m. 
为 了 把 式 (BD) 写成 最 终 的 形式 ， 注 意 函 数 产 (X) 下 面 的 面积 是 1， 因 因此 可 写 为 


mong om 5. (as) TL ax, (zi) 
t= Saf tha corns BE) a.) f aoo E 
i= vo Hø, Cx) 


Ja- Dyl (O 
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其 中 在 第 一 个 等 式 中 利用 了 定义 dx 二 dzdx*? ， 如 同 在 10.5 节 描 述 的 一 样 。 因 此 ， 将 CC) 代入 (A)， 我 们 得 
到 期 望 的 分 解 ; 
Doxnou = Dax1zx 十 Doxizu 

6. RH 
单词 系 词 是 拉丁 语 的 “连接 ”或 “ 键 ” 的 意思 ;在 语法 和 逻辑 上 经 常用 来 表示 连接 主题 和 判定 的 命题 的 部 
分 (Nelsen，2006) 。 在 数学 文献 中 ， 这 一 术语 由 Sklar(1959) 在 以 他 的 名 字 命 名 的 定理 中 首次 运用 :，Sklar 
定理 通过 “联合 ”一 维 分 布 函数 描述 了 多 变量 分 布 函数 的 形成 。Nelsen 的 书 提 供 了 关于 系 词 的 有 趣 的 历史 
观点 且 描述 了 其 基本 性 质 ， 提 供 了 构造 系 词 的 方法 以 及 在 模型 化 和 统计 相关 学 习 中 系 词 的 规则 。 关 于 系 词 
的 详细 文献 和 相关 问题 在 Nelsen 的 书 的 最 后 给 出 。 

7. Nadal and Parga(1994，1997) 还 讨论 了 最 大 互信 息 和 宛 余 减少 之 间 的 关系 ， 得 到 同样 的 结果 : 神经 系统 的 
输入 向 量 和 输出 向 量 之 间 的 互信 息 的 最 大 化 也 就 导致 数据 减少 。Haft and van Hemmen(1998) 讨 论 视 网 膜 的 
最 大 互信 息 滤波 器 的 实现 情况 。 结 果 表 明 ， 像 视网膜 这 样 的 感觉 系统 所 产生 的 内 部 环境 表示 ， 宛 余 性 对 获 
得 噪声 鲁 棱 性 是 最 根本 的 。 

8. 典型 相关 分 析 
典型 相关 分 析 理 论 由 Hotelling(1935，1936) 首 先 提出 。 为 了 讲述 这 一 理论 ， 我们 遵循 Anderson(1984) 的 处 
理 方 式 。 
考虑 由 六 个 分 量 组 成 的 0 -均值 随机 向 量 和 X， 其 mXm 的 协 方差 矩阵 为 马 。 令 革 分 解 为 两 个 子 向 量 X, M X, 
其 分 量 个 数 分 别 为 m。 和 ms 。 相 应 地 ， 协 方差 矩阵 三 被 分 解 为 

r X, >] [ECX:.X7] EXX | [Es Es 
z= mxx- E| (3°) xo |= Es EXN] E E] 

其 中 

Zn = Ex 
典型 相关 分 析 (CCOMAREMRF MEX, AX, 的 线性 变换 使 之 清楚 地 以 最 大 的 方式 展现 变换 后 的 随机 
变量 之 间 的 交互 相关 。 为 此 ， 考 虑 线性 变换 

Y, = wi X, 
和 

Y 一 wi X, 

Jh Y, WY, 都 是 0 -均值 随机 变量 ， 且 ms X1 向 量 w Am, Xl 向 量 ws 是 要 决定 的 基 向 量 。 由 于 Y, 的 倍 

KAY, 的 倍数 的 互相 关 函 数 与 了 、Y; 自身 的 互相 关 函 数 是 相同 的 ， 因 此 可 以 要 求 权 向 量 W。 和 W, 这 样 选 

择 使 得 Y,。 ALY, 具有 单位 方差 。 这 一 要 求 导致 下 面 的 两 个 条 件 : 

1 = ECY:] = ELwi X.X wa] = wit. We (A) 

和 





1 = ELY?] = ELW XXi w] = wi Eu w, (B) 
有 了 上 述 的 引导 性 素材 ， 我 们 现在 可 以 说 明 手 头 的 问题 : 
寻找 权 向 量 W。 PW ARRERA ER 
ELY.Y, ] = ELwiX, XI w, ] = wi Ea Wo 
服从 式 CA) 和 B 所 表示 的 两 个 条 件 。 
为 了 解决 约束 优化 问题 ， 我 们 利用 拉 格 朗 日 乘 子 法 ， 因 此 写 出 如 下 拉 格 朗 日 算 子 : 
J Wes Wi) = Wa Da Ws — Fe (WI Ea We 一 1) 一 Fp (WE Ea Ws 一 1) l 
其 中 心 Ay, 是 拉 格 朗 日 乘 子 ， 引 和 因子 1/2 是 为 了 简化 表达 。 对 W AW, a tits BARS I CW. W;) 
并 将 其 结果 设 为 0， 得 到 如 下 一 对 方程 : 


Zs Ws — fa Daa Wa = O (C) 
和 . 
Lan Wa — po EW, = 0 (D) 
R (O 和 D) 的 左边 分 别 乘 以 WI AW, RIA 
Wi TW, — fa We Lia Wa = O (E) 


All 
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Wi Zia Wa — pp Ws Dy we = 0 (F) 
SB, test CE) 和 CF) 中 分 别 调用 式 (AD 和 CB) WARE, 证 明 
Ma = po = Wa Dus Wo (G) 


其 中 我 们 已 经 用 了 关系 n=. Ale, BRER ARS JCW, W) 中 两 个 拉 格 朗 日 乘 子 具 有 共同 
值 ， 以 后 记 为 Ho 

MA, 认识 到 Y。 M Y, 的 方差 都 被 归 一 化 为 单位 1， 由 式 〈G) 知 拉 格 朗 日 乘 子 上 是 这 两 个 随机 变量 之 问 的 
典型 相关 。 

现在 的 关键 问题 是 : 如 何 决定 基 向 量 w。 和 w? 利用 式 (C) 和 式 (D) ， 可 以 证 明基 向 量 W, A W, 分 别 由 一 对 
特征 方程 定义 。 


Liz! La Big! Eu Wa = AW, CHD 
Ee Ea Bip! Bi 
C 
和 
Lig} Eo, Ec! Day We = AWs (TD 
Bei! Zu Ba Zo 
. c, 
其 中 
a= D 
因此 可 以 陈述 如 下 : 


1. EC. 的 特征 值 * 等 于 典型 相关 的 平方 值 ， 相 应 的 特征 向 量 定义 了 基 向 量 wao 
2. 第 二 个 矩阵 Gs 的 特征 值 4 也 等 于 典型 相关 的 平方 植 ， 相 应 的 特征 向 量 定义 了 第 二 个 基 向 量 we 。 
然而 ， 注 意 特征 方程 (G), (H) AD 的 有 意义 解 的 数 且 受到 维 数 m Rm, 的 限制 ， 无论 哪 一 个 都 是 较 
小 的 。 最 大 特征 值 A 产生 最 强 的 典型 相关 ; 下 一 个 特征 值 lz 产生 第 二 强 的 典型 相关 ， 以 此 类 推 。 
这 里 所 描述 的 典型 相关 分 析 (CCA) 可 用 于 揭示 两 个 相关 但 不 同 的 数据 集 之 间 的 二 阶 统计 相关 。 甚 至 ， 尽 
管 CCA 不 包括 高 阶 统 计 ， 但 实际 中 它 经 常 工作 良好 。 
AÈ (ED 和 (D， 很 显然 典型 相关 分 析 包 含 了 主 分 量 作 为 特例 ， 当 和 矩阵 AC 被 分 配给 一 个 共同 值 时 
发 生 ， 即 当 子 向 量 X 和 X 是 一 个 相同 的 向 量 时 。 
另 一 个 有 趣 的 是 ， 在 Fyfe(2005) 中 ， 介 绍 了 关于 典型 相关 分 析 的 两 个 不 同 神经 执行 ， 得 到 了 人 工 和 实际 数 
据 模 拟 的 支持 。 
9. Uttley 的 Informon 
在 Uttley(1970) 中 考虑 负 信息 通路 ， 通 过 最 优化 通路 中 输入 信号 与 输出 信号 之 间 的 互信 息 的 负 值 。 结 果 表 
明 ， 这 样 的 系统 在 调整 期 间 适 宜 变 成 输入 信和 号 集中 更 常 发 生 的 模式 的 判别 器 。 这 种 模型 称 作 informon, € 
与 Imin 原则 有 松散 关系 。 
10. 模糊 Imin 处 理 器 
在 Ukrainec and Haykin(1996) 中 烧 述 的 系统 包括 一 个 后 探测 处 理 器 ， 它 利 用 反射 器 灌水 道 的 水 陆 边 界 位 
置 的 先 验 知 识 。 模 糊 处 理 器 结合 初始 探测 性 能 和 基于 视觉 的 边缘 检测 器 的 输出 以 便 有 效 地 去 除 错误 警报 ， 
从 而 使 系统 性 能 进一步 提高 。 
ll. 历史 注 记 
关于 育 源 分 离 和 独立 分 量 分 析 的 两 篇 文章 在 文献 中 广为人知 : 
。 FAVA AS (BSS) 的 Herault 等 (1985) 的 文章 利用 了 Hebb 学 习 。 
。 Comon(1994) 关于 独立 分 量 分 析 (ICA)〉 的 文章 首次 提出 了 这 一 术语 。 
关于 BSS 和 ICA 的 详细 历史 记录 ， 包括 一 些 其 他 的 早期 贡献 ， 参 看 Jutten and Taleb(2000) 。 
12. 自然 梯度 
EAV D=(VY DJ)WrW 来 代替 通常 梯度 V DD 解决 盲 源 分 离 问题 的 思想 在 Cardoso and Laheld(1996) 中 有 
详细 的 介绍 。 这 里 V' D 称 为 相对 梯度 ， 这 个 梯度 与 自然 梯度 是 相同 的 。 自然 梯度 是 从 信息 几何 的 观点 来 
定义 的 ‘Amari，1998; Amari 等 ，1996)。 
13. 黎 受 空间 
例如 ， 在 nn 维 歼 曼 空间 中 ， 向 量 a 的 平方 范 数 定义 为 
fall? = >) X agia; 


ist j=l 


其 中 中 是 黎 曼 空 间 坐标 zi ,zs，…，zx 的 函数 ，gs 一 gz， 表 达 式 右边 总 是 正 的 。 该 表达 式 是 欧 几 里 得 平方 
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14, 


15. 


16. 


17. 


范 数 公式 
lal? = oa 


的 推广 。 关 于 黎 曼 空间 结构 的 讨论 ， 参 考 Amari(1987), Murray and Rice(1993) 和 Rosenberg(1997), 

超 高 斯 分 布 和 亚 高 斯 分 布 

考虑 随机 变量 X， 其 概率 密度 函数 由 px EM, Re BX WA. > px(z) 由 可 用 形式 exp( 一 g(x)) 

来 表示 ， 这 里 g&(Cz) 是 工 的 偶 函 数 ， 对 于 z 可 能 除 原点 外 是 可 微 的 ，g(z) 对 工 的 导数 记 为 g'(x)。 

如 果 当 0<x<co，g (zx)/z 是 严格 递减 的 ， 则 随机 变量 X 称 为 是 超 高 斯 的 。 例 如 可 能 取 g(z) 二 | z|*，B<2。 
一 方面 ， 如 果 随 机 变量 是 一 致 分 布 的 , 或 者 (x) M g a)r 对 于 0 二 zx 是 严格 递增 的 ， 则 随机 变 

E 六 被 称 为 亚 高 斯 的 ， 例如， 可 以 取 g(z) 一 |z|*，p>2。 

有 时 〈 也 许 有 些小 用 的 方式 ) 使 用 随机 变量 的 峭 度 (kurtosis》 符 号 作为 亚 高 斯 或 超 高 斯 的 指标 。 

量 X 的 峭 度 定义 为 : 


随机 变 


ELX] _ 

ELX’ D? 

在 此 基础 上 ， 根 据 峭 度 K, 为 负 或 为 正 ， 随 机 变量 和 分 别称 为 亚 高 斯 或 超 高 斯 的 。 

另 一 个 历史 注 记 

从 历史 上 看 ，Cardoso(1997) 第 一 个 从 理论 上 证 明 : 在 自然 梯度 算法 中 利用 正确 类 型 的 非 线性 激活 函数 解 

盲 源 分 离 对 其 达到 收敛 是 充分 的 。 

最 大 似 然 估计 

最 大 似 然 估计 具有 一 些 期 望 的 性 质 。 在 相当 普遍 的 条 件 下 ， 可 以 证 明 下 列 的 渐进 性 质 (Kmenta，1971): 

O 最 大 似 然 估计 是 一 致 的 。 令 工 (的 记 log 一 似 然 函 数 ，b 记 参 数 向 量 8 的 一 个 元 素 。 偏 导数 OL/00, KH 
得 分 (score) 。 我 们 说 最 大 似 然 估 计 是 一 致 的 ， 是 在 这 样 的 意义 下 : 0; 的 值 ， 对 之 的 得 分 3L/38; 是 恒 
为 0 的 ， 随 着 估计 中 样本 大 小 趋 于 无 穷 从 概率 上 收敛 于 8 的 真 值 。 

GD 最 大 似 然 估计 是 渐进 有 效 的 。 即 


K, = 


其 中 N 是 样本 大 小 , 620 的 最 大 似 然 估计 ， 天 是 逆 Fisher 信息 矩阵 的 第 i 


( varle — 6.] ) 


个 对 角 元 素 。Fisher 信 














BRM RA 
Sr] Eaton] e Lanas] 
IE 
La] Lana] ”时 让 








其 中 m 是 参数 向 量 8 的 维 数 。 
Gi) 最 大 似 然 舍 计 是 渐进 高 斯 的 。 即 随 着 样本 大 小 趋 于 无 穷 ， 最 大 似 然 估计 6 的 每 个 元 索 假设 为 高 斯 
分 布 。 
实际 上 ， 我 们 发 现 最 大 似 然 估 计 的 大 样本 《〈 即 渐进 的 ) 性 质 在 样本 大 小 NES 时 保持 得 很 好 。 
ICA 的 Infomax 的 原始 版 本 
式 (10. 127) 讲 述 了 ICA 算法 的 Infomax 的 原始 版 本 是 由 Bell and Seinowski (1995) 导出 的 。 这 一 原始 算法 
收敛 非常 慢 ， 这 是 由 于 记录 了 转 置 分 解 惩 阵 WARG W 7 项 的 存在 。 后 来 发 现 ， 通过 利用 自然 梯度 来 代 
蔡 通常 的 〈 欧 几 里 得 ) 梯度 ， 正 如 式 (10. 128) 所 述 ， 算 法 的 收敛 明显 加 速 。 


18. Gram-Schmidt 正 交 化 过 程 在 Golub and Van Loan(1996) 中 讲述 。 


19. 


对 称 FastICA 

作为 10. 17 节 中 讲述 的 快速 ICA 算法 的 单一 单元 压缩 版 本 的 补充 ， 存 在 这 一 算法 的 另 一 个 版 本 ， 称 为 对 
称 FastICA 算法 。 后 一 个 版 本 以 并 行 的 方式 估计 盲 源 分 离 问 题 的 分 量 。 具 体 地 ， 对 每 一 分 量 ， 这 一 算法 包 
含 了 单一 单元 的 更 新 的 并 行 计算 , 接着 在 每 次 迭代 后 对 估计 的 分 离 矩 阵 进行 对 称 正 交 。 在 Tichavsky 
et al. (2006) 中 ， 在 “局 部 ”意义 下 推导 了 算法 的 两 个 版 本 的 分 析 闭 式 表示 刻画 的 分 离 性 。 
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20. TIMIT 数据 库 
TIMIT( Texas Instruments (TD and Massachusetts Institute of Technology (MIT)) 数据 库 是 语音 识别 的 
一 个 标准 数据 库 。 它 是 在 安静 环境 下 录制 的 8-kHz 带宽 朗读 〈 不 是 对 话 ) 语音 组 成 。 这 个 数据 库 包 括 了 
630 个 发 言 者 (438 位 男性 和 192 位 女性 )， 每 位 发 言 者 有 10 个 发 言 ， 平 均 每 个 发 言 是 3 秒 钟 。 
21. 信息 瓶颈 的 另 一 个 观点 
关于 信息 瓶颈 的 另 一 个 考虑 方法 是 将 之 看 成 “最 小 充分 统计 量 ” 的 经 典 概念 的 泛 化 。 在 样本 概率 密度 函数 
Bx | ACK sXe arth Xn | a) 下 的 参数 向 量 a 的 充分 统计 量 是 一 个 样本 的 向 量 函 数 SCX)， 它 保留 了 关于 参数 a 的 
样本 的 所 有 互信 息 ; 即 1(X;a) 二 1(S(X); a) 。 最 小 充分 估计 量 是 最 简单 的 可 能 充分 统计 量 ， 或 者 是 另 一 
个 充分 统计 量 的 函数 ，T(X) = f(S(X))。 从 称 为 数据 处 理 不 等 (Cover and Thomas 2006) 的 互信 息 的 基本 
性 质 ， 对 于 任意 充分 统计 量 SCX) 如 果 I(T;X) 志 1(S;X) 时 TC(X) 是 最 小 的 。 最 小 充分 统计 量 捕 担 了 “样本 X 
关于 参数 向 量 a 的 相关 部 分 ”的 概念 。 不 幸 的 是 ， 精 确 的 《固定 维 数 ) 充分 统计 量 仅 仅 对 指数 形式 的 分 布 
存在 。 这 一 重要 概念 的 一 个 有 吸引 力 的 泛 化 是 通过 信息 瓶颈 方法 来 达到 的 ， 它 显 式 寻 找 多 的 具有 关于 XX 
最 小 互信 息 和 关于 相关 变量 Y (或 者 在 参数 统计 意义 下 的 a) 具有 最 大 信息 的 函数 。 
22. 在 经 典 ICA 理论 之 外 
本 章 的 前 面 重 点 讨论 了 经 典 ICA 理论 。 在 独立 分 量 分 析 和 盲 源 分 离 的 研究 中 已 经 在 多 个 前 沿 有 了 显著 的 
PE. 包括 如 下 这 些 内 容 : 
> 分 离 卷 积 混合 ， 这 里 的 注意 力 在 于 实际 观测 的 信号 混合 中 卷 积 扮演 着 重要 角色 的 事实 。 
+ 非 线 性 育 源 分 离 ， 这 里 非 线 性 是 混合 过 程 的 固有 特性 。 
。 非 独立 源 的 讶 源 分 离 ， 这 里 我 们 认识 到 一 个 或 多 个 源 信号 可 能 不 是 统计 独立 的 。 
。 有 骂 独 立 分 量 分 析 ， 这 里 放松 了 对 经 典 ICA 理论 的 无 噪 的 要 求 ， 因 此 和 追 使 我 们 面 对 有 品 源 信号 的 实际 
。 久 定 方案 ， 这 里 盲 源 信 号 大 于 混合 过 程 输出 端的 观测 数 ， 这 可 能 在 现实 中 发 生 。 
。 多 个 独立 子 空间 ， 这 里 ICA 理论 被 扩展 来 完成 这 样 的 情形 : 源 产生 的 信号 占据 了 不 同 的 子 空间 ， 这 些 
子 空间 是 彼此 独立 的 ， 在 每 个 子 空间 中 有 关 的 源 信号 依然 是 相关 的 。 
。 不 稳定 下 的 痛 源 分 离 技 术 ， 这 里 育 源 信号 假设 为 不 稳定 的 ， 挑 战 在 于 建立 不 稳定 的 概念 。 
。 育 源 分 离 技术 ， 其 数学 基础 依赖 于 源 信号 的 时 闫 表达 。 
。 HADES, ROMS 〈 如 自然 图 像 ) 的 稀疏 性 的 概念 在 其 分 离 中 扮演 着 关键 角色 。 
。 基于 时 间 相 关 的 盲 源 分 离 技 术 ， 这 里 甚至 可 以 分 离 在 特定 条 件 下 的 独立 高 斯 源 。 
我 们 这 里 所 列 出 的 是 一 系列 课题 ， 它 们 不 仅 和 源 信 号 的 实际 实现 有 关 ， 也 高 度 概括 了 在 ICA 和 BSS 理 
论 及 其 应 用 中 的 理论 挑战 。 对 于 这 些 课 题 的 详细 讨论 ， 有 兴趣 的 读者 可 以 参考 Hyvärinen 等 〈2001)、 
Roberts and Everson (2001), Cichocki and Amari (2002) 的 书 ， 以 及 Cardoso (2001) 和 Choi 等 
(2005) 的 综述 论文 。 


习题 


KAAR 
10.1 随机 变量 X HERS (也 就 是 取 非 零 的 值 域 ) 定义 为 [ae， 的 ， 没 有 别 的 限制 加 在 XX 上 。 该 随机 变量 
RAM A? 证 明 你 的 结论 。 
互信 息 
10.2 (a) WERS ACK) AUREL ACK LY) 的 定义 从 式 (10. 28) 的 第 一 行 开 始 到 该 式 的 第 二 行 的 积分 
公式 ， 定 义 一 对 连续 随机 变量 X 和 YY 之 间 的 互信 息 工 XI Y). 
Ch) 利用 对 互信 息 CX; Y) 推导 的 积分 公式 来 证 明 式 (10. 30) 到 式 (10. 32) 描 述 的 性 质 。 
(co) 证 明 式 (10. 35) 的 第 二 行 ， 将 相对 焙 Dux 表 示 为 期 望 形 式 。 
10.3 ”假设 输入 随机 向 量 X 由 初始 分 量 X 和 背景 分 量 X 组 成 ， 定 义 
Y, = a? X, 
Z: = bX 
试问 Y AZ, 之 间 的 互信 息 ， 以 及 X AX, 之 间 的 互信 息 有 何 关系 ? 假设 向 量 X 的 概率 模型 是 多 元 高 
斯 分 布 : 
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10. 4 


RH 
10.5 
10.6 


10.7 


10.8 





1 
px (xX) = (ny? (des exp((x— p) E (x— p)) 


其 中 心 是 X 的 均值 ,号 是 它 的 协 方差 矩阵 。 
FEI PS RATE RF A TY Kullback-Leibler 散 度 来 推导 多 层 感知 机 (Hopfield, 1987; Baum 
and Wilczek, 1998) 的 监督 学 习 算 法 。 更 确切 地 说 ， 考 虑 一 个 由 一 个 输入 层 、 一 个 隐藏 层 和 一 个 输出 
层 构 成 的 多 层 感 知 机 ， 假 设 实例 或 样本 a 呈现 给 输入 ， 输 出 层 神经 元 & 的 输出 解释 为 概率 : 

Vela = Phe 
AMHR. Sq.) RMA, BRAWN, KEE RAL ey 


Doig = >22 (au log( 2) 十 《1 — qua )log( 1 一 gels )) 


la 
Pale 1— Pra 
其 中 如 是 出 现 a 情况 的 一 个 先 验 概率 。 
以 Di, 为 最 优化 的 代价 函数 ， 推 导 一 个 多 层 感 知 机 的 学 习 算法 。 





说 明 在 10. 6 节 中 性 质 1 下列 出 的 系 词 Cuv (uw，v) 的 三 个 有 限 值 。 
系 词 的 一 个 有 趣 的 应 用 是 生成 新 的 分 布 (Genest and Mackay，1989)。 本 习题 的 (a) 和 Cb) 讲述 这 一 


应 用 。 
(a) 积 系 词 
一 对 统计 独立 的 随机 变量 X 和 Y 的 每 个 成 员 都 是 均匀 分 布 的 ， 正 如 下 式 所 示 
1 
posf? Sesh 
0， 否则 
1 
0， 否则 
画 出 系 词 Cov(uz，m) 。 
(b) 高 斯 系 词 
考虑 具有 0 -均值 和 单位 方差 的 一 对 相关 高 斯 分 布 ， 为 下 面 的 两 个 相关 系数 值 画 出 相应 的 系 词 ; 
O) p=0.9 
(ii) p=—0.9 


考虑 一 对 随机 变量 X AY, MARIA CX; Y)。 比 对 式 (10. 28) 和 基于 系 词 的 作为 统计 相关 测量 的 
式 (10. 49) 的 TCX; Y) 的 公式 。 

为 了 推导 式 (10. 50) 的 互信 息 和 系 词 炉 之 间 的 关系 ,我 们 采用 了 直接 方式 。 根据 和 推导 式 (10. 49) 相 似 
的 方法 重新 推导 式 (10. 50), 


Infomax 原则 


10.9 


10.10 考虑 图 P10.10 中 的 噪声 模型 ， 两 个 神经 网 络 的 


假设 有 两 个 通道 。 它 们 的 输出 分 别 用 随机 变量 X 和 了 表示 ， 要 求 使 X，Y 之 间 的 互信 息 达 到 最 大 。 证 

明 只 要 满足 以 下 条 件 则 就 可 以 达到 要 求 

(a) 出现 X 的 概率 和 出 现 了 的 概率 分 别 是 0. 5。 

Cb) X, 了 了 的 联合 概率 密度 函数 集中 在 概率 空间 的 
一 个 小 区 域内 。 


输入 端 都 为 m 个 源 节 点 。 输 入 由 Xi ,Xz，*… ,Xm 
表示 ， 相 应 的 输出 结果 用 Yi Y 表示 。 可 以 
假设 : 

。 网 络 输出 端的 加 性 噪声 分 量 N o No 是 高 斯 
ii, ASYM ov, 并且 互 不 
相关 。 

。 每 个 噪声 源 与 输入 信和 号 无 关 。 图 P10.10 





10. 11 
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， 输出 信号 YY, ，Y, 都 是 0 -均值 的 高 斯 分 布 。 
Ca) 求 输 出 向 量 Y 一 [Yi Y] 与 输入 向 量 X 一 [Xi，Xs，,…，X。]” 之 间 的 互信 息 。 
Cb) 利用 (a) 中 导出 的 结果 ， 检 测 在 以 下 情况 下 宛 余 / 相 异 性 是 如 何 折 中 的 《Linsher，1998a)， 
O SIERK BRA A 相 对 于 Y Yı ÜK. 
Gi) AIEI AM ok 相对 于 Y Yo 很 小 。 
在 10. 10 节 中 所 描述 的 Imax N. ARAM AN REO A HE X 和 X 求 输出 Y, Yo 之 
问 的 互信 息 KY.， 了 3 的 最 大 值 。 在 另 一 秘方 法 中 ， 一 个 不 同 的 目标 是 求 输出 Y。 MY, 的 平均 值 与 它 
们 固有 的 共同 信号 分 量 S 之 问 的 互信 息 7( 并 志 于 ，S) 的 最 大 值 。 
利用 例 8 中 描述 的 噪声 模型 ， 完 成 下 列 任务 ， 
(a) 证 明 








1(%s ae ;S) 二 log( ae xe) 


其 中 Nis No Æ Yas Yo 相应 的 噪声 分 量 。 
(b) 用 信号 加 噪声 与 噪声 的 比 来 解释 此 互信 息 。 


独立 分 量 分 析 


10. 12 
10. 13 


10. 14 


10. 1S 


给 出 主 分 量 分 析 〈 在 第 8 章 讨论 过 ) 与 独立 分 量 分 析 〈 在 第 10. 12 节 讨 论 过 ) 的 详细 比较 。 

独立 分 量 分 析 可 以 用 作 检 测 和 分 类 之 前 近似 数据 分 析 的 预 处 理 步 又 “Comon，1994)。 讨 论 能 在 这 种 
应 用 中 加 以 利用 的 独立 分 量 分 析 的 性 质 。 

Darmois 定理 陈述 只 有 当 各 个 独立 变量 是 高 斯 分 布 的 ， 其 和 才 是 高 斯 分 布 的 “Darmois，1953)。 用 独 
立 分 量 分 析 证 明 这 个 定理 。 

在 实际 的 应 用 中 ， 一 个 独立 分 量 分 析 算 法 实现 只 能 得 到 “ 尽 可 能 统计 独立 ”。 比 较 用 该 算法 解 育 源 分 
离 问 题 得 到 的 解 与 利用 去 相关 方法 得 到 的 解 的 差异 。 假 设 观 察 向 量 的 协 方差 矩阵 为 非 奇 异 的 。 


ICA 的 自然 梯度 学 习 算 法 


10.16 


10.17 


10. 18 


参考 图 10. 12 描述 的 系统 ,证 明 分 离 器 的 输出 Y 的 任何 两 个 分 量 的 互信 息 最 小 化 与 参数 化 的 概率 密度 
函数 py(yY，W) 和 相应 的 析 因 分 布 peo WERK Kullback-Leibler BE CHEM) 的 最 小 化 等 价 。 
ERCO. 100) 中 描述 的 盲 源 分 离 问题 的 自 适应 算法 有 两 个 重要 的 性 质 : C) 等 变化 性 ; (2) 权 值 矩阵 
W 保持 非 奇 异 。 人 性 质 O) 在 10. 14 节 后 面部 分 有 详细 的 介绍 。 在 本 习题 中 考查 第 二 个 性 质 。 
假设 用 于 开始 式 (10. 100) 算 法 的 初始 值 WwW(0) 满足 条 件 

|det(W(n))|40 对 于 所 及 
证 明 这 是 保证 Wx) 对 所 有 的 是非 奇异 的 充分 必要 条 件 。 
本 习题 讨论 式 (10. 100) 所 描述 的 盲 源 分 离 算法 的 批量 公式 。 具 体 写成 ， 


AW = (I~ ecy") Ww 


其 中 
aD aD … yN) 
OoJ a 1 ylN) 
m1) yal2) … Ya (N) 
且 
gad) pa = pn OND) 
aA PCN oye (ND 
ay) = |? nee . oe 
Gym)? Pal) e plyn NY 


其 中 NN 是 可 用 数据 点 的 数目 。 证 明 上 式 描述 的 权 值 矩阵 W 的 调整 AW 的 公式 成 立 。 


ICA 算法 的 Infomax 


10. 19 


考虑 图 10.16, ， 得 到 〈 利 用 随机 向 量 符号 ) : 
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10. 20 


Y= Wx 
其 中 
Y = [YY Yn] 
X = [Xi Xas Xn] 
W 是 一 个 mXm ALM. > 
Z= [Z DZ 
其 中 
Zp = gY) sk = 12 
(a) YEH Z AIK AHS Kullback-Leibler 散 度 Dp > 之 间 的 关系 为 
ACZ) =— Dar — Do ig 
其 中 Dy1, 是 下 面 两 个 量 的 Kullback-Leibler MH: (a) 统计 独立 的 〈 即 析 因 式 的 ) 输出 向 量 组 Y 


的 概率 密度 函数 ，(b) 由 TP gCy,) 定义 的 概率 密度 函数 。 


(b) 对 于 所 有 的 i， 当 gq(y;) 与 初始 源 输出 S 的 概率 密度 函数 相等 时 ，h(2Z) 的 公式 该 如 何 修改 ? 
(a) 从 式 (10. 124) 开 始 ， 推 导 式 (10. 125) 的 结果 。 

(b) 用 式 (10. 126) 中 的 logistic 函数 ， 证 明 使 用 式 (10. 125) 将 产生 由 式 (10. 127) 给 出 的 公式 。 
O 为 建立 在 式 (10. 129) 的 学 习 算 法 上 的 盲 源 分 离 Infomax 算法 构造 信号 流 图 。 


FastICA 算法 


10. 21 


10. 22 


给 定 由 式 (10.132) 和 式 (10. 133) 定 义 的 函数 OC), BY 
1. lv) = log(cosh(v)) 


2. B(v) = exp(— x) 


为 下 列 公 式 推导 相应 的 表达 式 : 


_ d&(v) 
glu) = a 


和 
gy (v) -一 dev) 


ov 
在 点 1 和 点 2 的 例子 中 OC), ov) Al g (vo) PB RBGEA THAR RK? 证 明 你 的 回答 。 
FastICA 算法 声称 比 其 他 ICA 算法 (如 自然 梯度 算法 和 Infomax 的 ICA 算法 ) RGA. Mie FastICA 
算法 中 对 于 这 一 重要 性 质 的 特征 。 


相关 ICA 


10. 23 


10. 24 
10.25 


在 组 合 Infomax 和 Imax 到 目标 函数 ICW., We) 时 ， 我 们 省 略 了 在 Infomax 和 Imax 之 间 提 供 折 中 的 
正则 性 。 这 样 做 是 为 了 简化 ICA 算法 的 公式 。 如 何 才能 够 修改 目标 函数 使 其 保留 网 络 a 和 2 的 输出 之 
闻 的 统计 相关 的 同时 仍然 在 目标 函数 中 包括 正则 性 ? 这 一 延伸 有 什么 意义 ? 

从 计算 项 上 ， 算 法 相关 ICA 和 FastICA 共享 了 两 个 相似 的 特征 。 这 些 特 征 是 什么 ? 给 出 详细 说 明 。 

对 比 相关 ICA 和 其 他 ICA 有 什么 不 同 特征 。 


信息 瓶颈 方法 


10. 26 


10. 27 


10. 28 


10. 29 


考虑 通过 画 出 如 图 10. 21 所 示 的 I(T; Y) 对 I(X; T) 的 信息 曲线 。 证 明 : 对 于 最 优 信息 瓶颈 解 ， 这 一 
曲线 是 递增 凸 曲 线 ， 在 每 一 点 的 斜率 是 1/8. 

图 10. 22 的 关于 信息 瓶颈 方法 的 直观 描画 和 图 4. 19a 的 重复 符 网 络 〈 恒 等 映射 ) 彼此 间 具 有 强烈 的 相 
似 性 。 详 细 说 明 这 一 陈述 及 其 相关 的 含义 。 

式 (10. 184) 是 由 式 (10. 182) 而 来 。 

(a) 证 明 式 (10. 184) 。 

(b) 证 明 伴随 公式 (10. 185) 。 

在 应 用 式 (10. 183) 的 最 优 条 件 到 式 (10. 186) 的 拉 格 朗 日 算 子 的 过 程 中 ， 我 们 跳 过 了 一 些 严 格 步 又 。 
(a) 从 式 (10. 183) 开 始 ， 推 出 达到 如 下 结果 的 所 有 步 驰 
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一 0 





i ， qnx (t| x) BOO 
F | x— YC |l + log( gr (t) ) Apx (xX) 


Cb) 由 此 ， 推 导 式 (10. 188) 和 式 (10. 189) 中 的 相 容 公式 对 。 
计算 机 实验 
10.30 考虑 在 图 10. 9 中 描述 的 系统 包含 如 下 三 个 独立 源 : 

sı (n) =0. lsin(400n) cos(30n) 

sz (n) = 0. Olsgn(sin(500n-+ 9cos(40n))) 

s(n) 二 噪声 ， 在 范围 C-1. 1] 上 均匀 分 布 

混合 矩阵 A 是 : 


A= |—0.75 0.65 0.86 
0.17 0.32 一 0.48 
(a) 画 出 三 个 源 信号 ma) ，s (n) 和 SC) 的 波形 。 
(b) 利用 10.14, 10.16, 10.17 节 中 讲述 的 三 个 ICA 算法 来 解 盲 源 分 离 问 题 ， 包 含 源 5 a). s(n), 
sm 和 混合 矩阵 A。 画 出 分 离 器 输出 产生 的 波形 ， 并 和 (a) 部 分 画 出 的 相 比较 。 
(c) 决定 分 离 矩 阵 W。 
10.31 在 10.21 节 中 讲述 的 计算 机 实验 中 ， 我 们 利用 了 最 优 流 形 (对 数据 的 非 监 督 表 达 ) 和 最 小 均 方 算法 
(LMS) 来 完成 模式 分 类 。 用 于 分 类 的 数据 基于 特定 的 图 1.8 所 示 的 双 月 结 爸 。 
(a) 重复 10. 21 节 所 示 的 计算 机 实验 ， 这 一 次 利用 递归 最 小 二 乘 ‘RLS) 算法 来 代替 LMS 算法 。 
(b) 从 性 能 收敛 和 计算 复杂 度 的 角度 比较 你 的 实验 结果 和 10. 21 节 的 结果 。 


0.56 0.79 一 0， | 
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植 根 于 统计 力学 的 随机 方法 


本 章 组 织 

本 章 的 研究 主题 是 研究 通过 建立 在 根植 于 统计 力学 上 的 思想 的 随机 算法 ， 用 于 模拟 、 优 化 
和 学 习 的 随机 方法 。 
本 章 组 织 如 下 : 

11.1 节 是 引言 ， 主 要 列举 对 研究 该 主题 的 动机 的 描述 。 

11.2 节 对 统计 力学 进行 了 介绍 性 描述 ， 重 点 是 以 动力 学 观点 来 看 待 自由 能 量 和 炳 的 概念 。 

11.3 节 主要 是 讨论 一 种 特殊 随机 过 程 名 为 马尔 可 夫 链 (Markov chains)， 其 应 用 经 常 能 出 
现在 统计 力学 的 研究 中 。 

11.4 节 至 11.6 节 主要 研究 下 列 三 个 随机 模拟 /优化 的 方法 : 

。 Metropolis 算法 

。 模拟 退火 

。 Gibbs 采样 

Metropolis 算法 和 Gibbs 采样 分 别 对 于 静态 过 程 和 非 静 态 过 程 进行 了 模拟 ， 而 模拟 退火 方 
法 是 面向 优化 的 。 

11.7 节 至 11.9 节 介绍 根植 于 统计 力学 的 随机 机 器 ， 

。 Boltzmann 机 器 

。 losgistic 信 度 网 络 

。 深度 信和 度 网 络 
其 中 深度 信和 度 网 络 具有 独特 的 性 质 ， 它 克服 了 古典 Boltzmann 机 器 和 logistic 信 度 网 络 实用 的 限制 。 

11.10 节 主 要 描述 确定 退火 方法 ， 它 是 对 模拟 退火 方法 的 近似 ; 不 论 它 的 名 字 ， 确 定 退 火 
是 一 种 随机 算法 。11. 11 节 介 绍 最 大 期 望 算 法 ， 同 时 一 并 讨论 一 种 确定 退火 方法 。 

11. 12 节 对 本 章 进 行 小 结 和 讨论 。 


11.1 引言 


作为 无 监督 〈 自 组 织 ) 学 习 系 统 的 最 后 一 种 类 别 ， 我 们 以 统计 力学 作为 我 们 思想 的 出 发 
点 。 统 计 力 学 的 主题 围绕 对 大 系统 宏观 平衡 态 性 质 的 形式 化 研究 ， 而 系统 的 每 个 基本 元 素 遵循 
力学 的 微观 定律 。 统 计 力学 的 主要 目标 是 从 微观 元 素 〈 如 原子 和 电子 的 运动 ) 推导 出 宏观 物体 
的 热力 学 性 质 (Landau and Lifshitz, 1980; Parisi，1988) 。 这 里 面 对 的 自由 度数 量 是 巨大 的 ， 
这 样 不 得 不 用 概率 的 方法 进行 研究 。 正 如 香农 的 信息 论 一 样 ， 在 统计 力学 的 研究 中 炉 的 概念 起 
着 关键 的 作用 : 

RRBARPARA COMED RRR P, NAR, 

AH, RNTUKRKRARASRE HRB HRI, WBA. 161975 Æ, Jaynes 证 
BAT RAS ASL AT DAR — BE TRS BB EEE ee A) ET AE Ae ee 
研究 基础 的 Gibbs 分 布 的 出 发 点 。 


利用 统计 力学 作为 研究 神经 网 络 基 础 的 兴趣 可 以 追溯 到 Cragg and Temperley(1954) 以 及 
Cowan(1968) 的 早期 工作 。Boltzmann 机 (Hinton & Sejnowski, 1983, 1986; Ackley 等 
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1985) 也许 是 第 一 个 由 统计 力学 导出 的 多 层 学 习 机 。 机 器 的 命名 认可 了 神经 网 络 自身 的 动力 学 
行为 和 Boltzmann 原始 关于 统计 热力 学 工作 的 形式 上 的 等 价 性 。 基 本 上 说 ，Boltzmann 机 可 以 
对 给 定数 据 集 的 固有 概率 分 布 进行 建 模 ， 这 样 在 诸如 模式 完备 和 模式 分 类 等 任务 中 所 使 用 的 条 
件 分 布 就 可 以 导出 来 了 。 令 人 遗憾 的 是 Boltzmann 机 的 学 习 过 程 是 令 人 难以 忍受 地 慢 ， 这 一 缺 
点 导致 对 Boltzmann 机 的 修改 和 产生 了 新 的 随机 机 器 。 以 上 这 些 问 题 构 成 了 本 章 的 大 部 分 
题材 。 


11.2 统计 力学 


考虑 具有 许多 自由 度 的 物理 系统 ， 它 可 以 驻 留 在 大 量 可 能 状态 中 的 任何 一 个 。 例 如 ， 用 p 
表示 一 个 随机 系统 中 状态 ; 发 生 的 概率 ， 具 有 如 下 性 质 ， 
peo, 对 于 所 有 i (11.1) 
且 
de: =1 (11. 2) 


HE 表示 系统 在 状态 i 时 的 能 量 ， 统计 热力 学 基本 结论 告诉 我 们 ， 当 系 统 和 它 周围 的 环境 处 
于 热平衡 时 ， 一 个 基本 的 结果 是 状态 i 发生 的 概率 如 下 : 


1 E; 
pi = zeel gr) (11. 3) 
其 中 工 为 开尔文 绝对 温度 ，ks 为 Boltzmann 常数 ，Z 为 与 状态 无 关 的 常数 。1 开尔文 度 相当 于 


一 273 摄氏 度 ，ks 二 1. 38X10 "A/F. 
式 (11. 2) 定 义 概率 规范 化 的 条 件 。 将 这 个 条 件 添加 到 式 (11. 3) 得 到 
Z= Z exe(— jp) (11. 4) 
规范 化 量 Z 称 为 状态 和 或 者 剖 分 函数 〈 通 常用 符号 Z 是 因为 这 项 的 德 文 名 字 为 Zustad- 
summe), ROL 3) 的 概率 分 布 称 为 典型 分 布 或 Gibbs PA; 指数 因子 (一 E;/ksT) 称 为 Bo- 
Itzmann AF. 
对 Gibbs PAU FA ABER: 
1. 能 量 低 的 状态 比 能 量 高 的 状态 发 生 的 概率 高 。 
2. 随 着 温度 T 降低 ， 概 率 集 中 在 低能 状态 的 一 个 更 小 的 子 集 上 。 
温度 可 以 被 视 为 一 种 伪 温 度 ， 它 控制 表示 神经 元 “ 突 触 噪声 ”的 热 波 动 。 它 的 精确 标 
度 因 而 无 关 紧 要 。 相 应 地 ， 我 们 可 以 置 常数 &s 为 单位 1 而 重新 度量 之 ， 因 此 重新 定义 概率 p: 
和 前 分 函数 (partition KOZ MF: 
p= 到 exp( 一 学) (1.5) 
和 
Z= Sex(-#) (11. 6) 
今后 我 们 处 理 统计 力学 就 在 这 两 个 定义 基础 上 进行 ， 其 中 人 简单 称 为 系统 温度 。 从 式 (11.5) 
我 们 注意 到 一 logp; 可 以 被 看 作 在 单位 温度 下 “能 量 ” 的 一 种 度量 。 
Fl eh BE Et Fh 
物理 系统 的 Helmholtz 自由 能 量 记 为 F, HARM 和 定义 如 下 : 
=— TlogZ (11.7) 
系统 的 平均 能 量 定义 为 : 
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<E>= Ņ pE, (11.8) 


< 。 > 表示 总 体 平 均 运算 。 因 此 ， 利 用 式 (11.5) 至 起 (11.8)， 可 以 看 出 平均 能 量 和 自由 能 量 之 
FA 


<E>—F=—T))pjlogp, (11. 99 
式 (11.9) 右 边 的 量 忽 略 温 度 T. RAR. RNA: 
H =— > plogp; (11. 10) 


(这 个 定义 与 第 10 章 的 信息 论 模型 是 一 致 的 ) 
因此 可 以 重 写 式 (11.9) 为 : 

<E>— F= TH 
的 形式 或 等 价 于 : 

F=<E>— TH (11.11) 
考虑 两 个 系统 A BA’ BUCA A. (ASA 比 系统 A' 更 小 ， 这 样 4 可 以 看 作 具 有 恒温 工 
WERE. SAS BRR RAS: 

AH + AH’ >0 
增加 ， 其 中 AH Al AH’ 分 别 表 示 系 统 A MA MME (Reif, 1965), MHRC11.11), 这 
个 关系 的 含义 是 指 系统 下 的 自由 能 量 逐 渐 降 低 至 平衡 态 时 变 为 最 小 。 由 统计 力学 我 们 发 现 此 
时 它 的 概率 分 布 为 Gibbs 分 布 。 因 而 我 们 有 一 个 重要 的 原则 称 为 最 小 自由 能 量 原则 ， 它 可 以 陈 
述 如 下 (Landau and Lifshitz, 1980; Parisi, 1988): 


随机 系统 变 元 的 自由 能 量 的 最 小 值 可 在 热平衡 时 达到 ， 此 时 系统 服从 Gibbs 分 布 。 自 然 仿 
爱 具 有 最 小 自由 能 量 的 物理 系统 。 


11.3 马尔 可 夫 链 


考虑 由 多 个 随机 变量 组 成 的 一 个 系统 ， 其 演化 可 由 一 个 随机 过 程 { X,,n = 1,2,…} H 
述 。 随 机 变量 X, 在 时 刻 n Ric, 称 为 系统 在 ”时 刻 的 状态 。 随 机 变量 所 有 可 能 的 值 构成 的 空 
间 称 为 系统 的 状态 空间 。 如 果 随 机 过 程 {X., 和 2 一 1,2,… ) 的 构造 使 得 X11 的 条 件 概率 分 布 
仅 依靠 于 X. 的 值 而 与 其 他 以 前 的 值 无 关 ， 称 这 个 过 程 为 马尔 可 夫 链 (Feller,，1950; Ash, 
1965) 。 更 准确 地 说 ， 我 们 有 
POX = za | Xn = Lao X = BH) = POX = Lot |X, = x,) (11.12) 
这 称 之 为 马尔 可 夫 特 性 。 换 名 话说 : 
如 果 系 统 在 十 1 时 刻 出 现状 态 ,+ 的 概率 仅 依赖 于 系统 在 ”时 刻 出 现状 态 x, 的 概率 ， 则 
随机 变量 序列 XX) X: stt Xn Xm 成 为 马尔 可 夫 链 。 
因此 我 们 可 以 将 马尔 可 夫 链 看 作 产 生 模 型 ， 它 由 一 些 可 能 的 状态 〈 成 对 的 基础 上 ) 转移 链 
接 而 成 。 每 时 刻 访问 一 个 特定 的 状态 ， 模 型 输出 一 个 该 状态 相关 的 符号 。 
转移 概率 
在 马尔 可 夫 链 中 ， 从 一 个 状态 到 另 一 个 状态 的 转移 是 随机 的 ， 但 输出 符号 却 是 确定 的 。 令 
ps = P(X = j|X, =D (11. 13) 
表示 在 nn 时 刻 状态 i EBB n+ MARAT 的 转移 概率 。 旗 然 pi 为 条 件 概率 ， 所 有 的 转移 概 
率 必须 满足 两 个 条 件 : 
ps 0, 对 于 所 有 的 zi 了 (11. 14) 
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2ps 一 1， 对 于 所 有 的 i (11. 15) 


将 假定 转移 概率 是 固定 的 ， 不 随时 间 改 变 ， 也 就 是 说 ， 式 (11.13) 对 所 有 时 间 成 立 。 在 这 种 
情况 下 ， 马 尔 可 夫 链 称 为 关于 时 间 是 齐 次 的 。 
如 果 系 统 具 有 有 限 数目 的 可 能 状态 ， 例 如 K 个 状态 ， 则 转移 概率 构成 一 个 KXk 的 矩阵 
Pu Piz cee pix 


Pa Pz “°° Px 


p= (11. 16) 


Pri prk *** prk 

它 的 元 素 满足 式 (11. 14) 和 式 (11. 15) 所 述 的 条 件 ， 而 后 一 条 件 就 是 P 的 每 行 的 和 为 1。 这 种 类 
型 的 矩阵 称 为 随机 短 阵 。 任 何 随机 和 抢 阵 可 以 作为 转移 概率 矩阵 。 

由 式 (11. 13) 定 义 的 一 步 转移 概率 可 以 推广 到 经 过 固定 的 步 数 从 一 个 状态 转移 到 另 一 个 状 
态 。 令 p 表示 从 状态 i 到 状态 j 的 m 步 转 移 概 率 : 

PE? = P(X = x; |X, = zi) ,mm = 1,2," (11.17) 

我 们 可 以 把 如 所 看 作 系 统 从 状态 :转移 到 状态 7 经 历 的 所 有 中 间 状 态 A. Fae. py? ay 
由 py” 递 推 而 得 : 


py? = Dp py m= 1,25 (11. 18) 
而 
Pe = Pie 
式 (11. 18) 可 以 推广 如 下 : 
pyr = D pP pR m= 1,2, (11.19) 
这 是 Chapman-Kolmogorov 恒等式 的 特殊 情形 (Feller, 1950), 


马尔 可 夫 链 的 详细 说 明 
有 了 状态 和 转移 概率 的 概念 ， 我 们 现在 可 以 将 马尔 可 夫 链 具体 总 结 如 下 : 


G) 一 个 由 如 下 项 目 定 义 的 随机 模型 : 

. 有 限 K 可 能 状态 ， 表示 为 S= (1,2, K}. 

。 一 些 列 相应 的 概率 {ps)， 其 中 ps 为 从 状态 i 到 j 的 状态 转移 概率 ， 并 且 满 足 
Pi 之 0 


Des 一 1 对 所 有 的 i 


了 了 


Gi) 给 定 已 描述 的 随机 模型 ， 马 尔 可 夫 链 是 由 下 列 一 系列 的 随机 变量 XD, Xi, X: oe HF 

给 定 ， 其 中 它们 的 值 根 据 相 应 的 马尔 可 夫 特 征 取 自 于 状态 S: 
P(X = ij|X, = i, Xna = imito Xo = i) = P(Xm = j|X, =D 

其 中 对 所 有 的 时 间 n 和 所 有 的 状态 i，j€S 都 成 立 ， 同 时 所 有 的 可 能 序列 tt 涉及 
之 前 的 状态 。 
常 返 性 

假设 一 个 马尔 可 夫 链 从 状态 i 开始， 它 以 概率 1 返回 状态 i， 则 称 状态 i 为 常 返 的 ; 也 就 是 说 

pi = P( 状 态 i 的 每 一 个 返回 ) 一 ] 

若 概 率 p; 二 1， 则 称 状 态 i HMA (Leon-Garcia，1994)。 
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如 果 马 尔 可 夫 链 从 一 个 常 返 态 开始 ， 则 该 状态 在 时 间 上 将 无 穷 次 重 现 。 如 果 从 一 个 瞬 态 开 
始 ， 它 将 只 能 有 限 次 重 现 。 这 可 以 作 如 下 解释 : 我 们 可 以 把 状态 i 重新 发 生 看 作 一 个 成 功 概率 
J p: 的 Bernoulli 试验 *。 它 返回 的 次 数 为 具有 均值 (1 一 好:) 的 几何 随机 变量 。 若 p; 二 1， 这 
意味 着 有 无 穷 次 成 功 的 次 数 为 零 。 因 此 一 个 瞬 态 确实 在 有 限 次 返回 后 不 再 发 生 。 

如 果 一 个 马尔 可 夫 链 有 某 些 瞬 态 和 常 返 状态 ， 则 该 过 程 最 终 只 会 在 常 返 态 之 间 移 动 。 
周期 性 

图 11.1 显示 一 个 具有 常 返 态 的 马尔 可 夫 链 。 此 链 经 过 一 系 
列 的 子 态 ， 经 过 三 倍 次 移动 之 后 以 相同 子 态 结束 。 图 示 说 明 这 
个 常 返 的 马尔 可 夫 链 具有 周期 性 。 

就 图 11. 1 而 言 ， 一 个 常 返 的 马尔 可 夫 链 如 果 是 具有 周期 性 
的 是 指 所 有 状态 能 被 编 人 4 个 各 不 相交 的 子 集 S:,S; Sas 
其 中 4>1， 而 且 所 有 的 从 一 个 子 集 到 另 一 个 子 集 的 转移 都 有 这 
种 方式 ， 在 此 图 中 ，d 二 3。 更 精确 地 ， 一 个 周期 性 常 返 的 马尔 
可 夫 链 是 指 满足 以 下 条 件 (Bertsekas and Tsitsiklis, 2002); 

eS Sap Sim ee 

jE Si,3k=d 图 11.1 一 个 4=3 周期 性 党 
一 个 常 返 的 马尔 可 夫 链 是 不 定期 的 是 指 它 不 具有 周期 性 。 返 的 马尔 可 夫 链 
不 可 约 马尔 可 夫 链 

一 个 马尔 可 夫 链 上 的 状态 j 称 为 从 状态 i 可 达 的 ， 如 果 从 状态 i 到; 存在 有 限 步 具有 正 概 
率 的 转移 。 如 果 状 态 i 和 状态 7 之 间 互 为 可 达 的 ， 则 该 马尔 可 夫 链 的 状态 i 和 状态 7 称 为 彼此 
相通 的 。 这 种 相通 可 写作 icy. PB. RRA i 与 状态 7 相通 ， 且 状态 j 与 状态 & 相通 ， 
Bp iej Mjek, MRE i 和 状态 相通 〈 即 ice). 

如 果 马 尔 可 夫 链 的 两 个 状态 相通 ， 则 其 属于 同一 类 。 一 般 情 况 下 ， 一 个 马尔 可 夫 链 的 状态 
组 成 一 个 或 多 个 不 相通 的 类 。 但 是 ， 如 果 所 有 状态 组 成 一 个 类 ， 则 称 该 马尔 可 夫 链 为 不 可 分 的 
或 者 不 可 约 的 。 换 名 话说， 一 个 不 可 约 的 马尔 可 夫 链 从 任 一 个 状态 开始 ， 可 以 以 正 的 概率 达到 
任何 别 的 状态 。 可 约 链 在 大 多 数 的 应 用 领域 无 实际 价值 。 相应 地 我 们 限制 我 们 的 注意 仅 在 不 可 
约 的 链 。 

考虑 一 个 不 可 约 的 马尔 可 夫 链 ， 在 时 刻 n==0 时 开始 于 常 返 态 i。 令 T;(&) 表 示 第 一 1 次 
和 第 有 次 返回 状态 i 之 间 的 时 间 间 隔 。 状 态 i 的 平均 常 返 时 间 定 义 为 了 ,(k) 关 于 上 的 期 望 值 。 
状态 i 的 稳 态 概率 ， 记 为 x;:， 等 于 平均 常 返 时 间 E [7T;(%)」 的 倒数 ， 即 由 下 式 表 示 : 

1 

~ ELT.) 
如 果 E [Tk] <co, EME a > 0, RE i 称 为 一 个 正常 返 〈 持 久 的 ) 态 。 若 E CT: ]= 
oo, ERE x 二 0， 状 态 i HRAN—-REFR (持久 的 ) A. mn =0 意味 着 马尔 可 夫 链 最 终 达 到 的 
状态 再 返回 状态 i 是 不 可 能 的 。 正 常 返 和 零 常 返 是 不 同类 的 性 质 ， 这 意味 着 同时 具有 正常 返 和 
零 常 返 的 马尔 可 夫 链 是 可 约 的 。 
人 遍历 马尔 可 夫 链 

大 体 上 说 ， 遍 厉 性 意味 着 我 们 可 以 用 时 间 的 平均 替代 总 体 平 均 。 对 一 个 马尔 可 夫 链 来 说 ， 
遍历 性 意味 着 链 处 于 状态 i 的 时 间 长 度 和 稳 态 概率 x; 相对 应 ， 这 可 以 说 明 如 下 : 上 次 返回 后 花 
费 在 状态 i 的 时 间 ， 用 v;(k) 表 示 ， 定 义 为 





Ti 
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v,(k) 一 一 
DTD 
返回 时 间 T: (2) ey RF a eA Gid) 的 随机 变量 ， 因 为 由 定义 每 次 返回 的 时 间 都 是 
和 以 前 返回 的 时 间 统 计 独 立 的 。 更 进一步 ， 对 常 返 态 i， 链 返回 状态 i 无 穷 次 。 因 此 当 返 回 次 
数 让 逼近 无 穷 大 时 ， 大 数 定律 表明 ， 花 费 在 状态 i 的 时 间 比 例 趋 近 稳 态 概率 ， 表 示 为 





limw. (k) =n, 当 i=1,2,.…,K C11. 20) 
其 中 K 是 状态 的 个 数 。 
马尔 可 夫 链 为 遍历 的 一 个 充分 但 不 必要 的 条 件 是 : 它 为 不 可 约 的 且 非 周期 的 。 
收敛 于 平衡 分 布 


考虑 一 个 遍历 的 马尔 可 夫 链 ， 相 应 的 转移 矩阵 为 P。 令 行 向 量 r “表示 链 在 ”一 LI 时 刻 的 
状态 分 布 向 量 ; xB j 个 分 量 为 在 时 刻 n 一 1 时 链 处 于 状态 x 的 概率 。 在 n 时 刻 状态 分 布 
向 量 可 以 定义 为 ; 


nx" 一 pP (11. 21) 
HRAL DAREA: 
pP = TorD 了 一 gP = n pP = 
并 且 最 后 可 以 写成 : 
ne = n” P C11. 22) 


其 中 a 是 状态 分 布 向 量 的 初始 值 。 也 就 是 说 : 

马尔 可 夫 链 在 时 刻 n 状态 分 布 向 量 为 初始 状态 分 布 向 量 n” fp P Hn KAW 
乘积 。 

令 pP Bm p” HB ij DER. WAME n BALAK, pP ATI AAV, HP 
a 为 状态 j 的 稳 态 概率 。 相 应 地 ， 对 于 大 的 nx， 和 矩阵 P" 逼近 于 有 相等 行 的 方 阵 形式 ， 可 表 
TRA 


nl Te TK x 
. Kı T2 ° TK r 
limP* = |. 。 =]. 《11. 23) 
noo : : : : 

Tl T2 eee TK n 


其 中 x BGM ms mo m 构成 。 从 而 由 式 (11. 22) 发 现 (经 过 一 系列 调整 ): 
pt 


因为 由 定义 DN 一 1， 初 始 分 布 的 独立 向 量 x 满 足 这 个 条 件 。 
现在 我 们 可 以 叙述 关于 马尔 可 夫 链 的 遍 厉 定理 如 下 (Feller, 1950; Ash, 1965): 
设 一 个 遍历 且 不 可 约 的 马尔 可 夫 链 具有 状态 Xs Tzs "9 XK Fo RG pu 4E E P= {pj}. 那么 ， 
该 链 有 唯一 的 平稳 分 布 ， 可 以 由 任 一 初始 态 收 化 到 它 ; 也 就 是 说 ， 在 在 唯一 一 组 数 i SLL RA 
1. limps” = nj» 对 于 所 有 + (11. 24) 
2 x; 这 >0， 对 于 所 有 j (11. 25) 


K 
3. > xi 一】 (11. 26) 


j=l 
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K 
4. my = D mps 对 j=1,2,…,K (11. 27) 
i=] 


AR. 假定 一 个 马尔 可 夫 链 为 非 周期 不 可 约 的 ， 存 在 (xR BRAC 25)ZX(11.27), 3 
么 该 链 是 遍历 的 ，ri 由 式 (11. 24) 给 出 ， 状 态 j 的 平均 常 返 时 间 为 1/xj。 

概率 分 布 函数 {xj}) 仁 | 称 为 不 变 分 布 或 平稳 分 布 。 这 样 命名 是 因为 它 一 旦 建立 ,将 永远 保 
持 。 根 据 遍 历 定理 ， 我 们 可 以 断言 : 

1. 从 任意 初始 分 布 开始 ， 一 个 马尔 可 夫 链 的 转移 概率 将 收敛 于 一 个 平稳 分 布 ， 只 要 这 个 
平稳 分 布 存在 。 

2. 遍历 的 马尔 可 夫 链 的 平稳 分 布 独 立 于 它 的 初始 分 布 。 

例 1 一 个 可 遍历 的 马尔 可 夫 链 

考虑 一 个 马尔 可 夫 链 ， 其 状态 转移 图 由 图 11. 2 描绘 ， 它 有 两 个 状态 x; 和 za 。 链 的 随机 和 气 
EH: 


工 3 
4 4 
P= 
d 1 
2 2 
它 满足 式 (11. 4) 和 式 (11. 5) 的 条 件 。 假 设 初始 条 件 是 


(0) __ 1 d 
7 =|5 5 | 


由 式 (11. 21) 我 们 发 现在 时 刻 ”一 1 状态 分 布 向 量 为 





1 5 
D pp 
A n° P E 6 | 


Nie ale 
Nl Blo 
| 
mm 
NIT 
A| 
xj 
Ale 
L 


HERENEN PHRA n=2, 3, 4, %8 
p? = ene 0 5625] . [> 400， 0 5999 J 1 [o 4000 0. 6000 
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因此 xı =0. 4000 和 mm 一 0.6000。 在 这 个 例子 中 ， 平 稳 分 布 的 收敛 基本 上 在 ”一 4 次 迭代 就 完成 
了 。 由 于 xm 和 m 都 大 于 零 ， 两 个 状态 都 是 正常 返 的 ， 并 且 链 为 不 可 约 的 。 同 时 注意 它 是 非 周 
Hi. SAA (PD, >0 的 所 有 正 整数 ”之 1 的 最 大 公 因 数 是 1。 因 此 得 出 结论 图 11. 2 的 
马尔 可 夫 链 是 遍历 的 。 m 


直到 现在 之 后 


图 11.2 SL 的 马尔 可 夫 链 的 状态 转移 图 : 2 和 zz 分 别 以 直到 现在 和 之 后 标明 


例 2 一 个 具有 平稳 分 布 的 遍历 马尔 可 夫 链 
考虑 随机 矩阵 具有 某 些 零 元 素 的 马尔 可 夫 链 ， 如 
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该 链 的 状态 转移 图 由 图 11. 3 描绘 。 
应 用 式 (11. 27) 得 到 下 列 联 立方 程 组 : 

m= om + 
T2: 一 于 + in 
m = XA +i 


解 关 于 m, m 和 xs 的 方程 组 ， 得 到 
m = 0.3953 
x: = 0.1395 
m3 = 0. 465 2 
这 个 给 定 的 马尔 可 夫 链 是 遍历 的 ， 它 的 平稳 分 布 由 xi 、rz 和 rs 定义 。 a 


状态 分 类 
在 所 述 材料 的 基础 上 ， 我 们 可 以 对 状态 所 属 的 类 进行 小 结 ， 如 图 11.4 所 示 (Feller, 
1950; Leon-Garcia，1994)。 这 个 图 还 包括 状态 相关 的 长 期 行为 。 
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非 周期 的 周期 的 
limp” =r, limp P=dr as n> , 
随 荐 ”一 oo d 是 一 个 大 于 1 的 整数 
图 11.3 例 2 的 马尔 可 夫 状态 转移 图 图 11.4 马尔 可 夫 链 的 状态 分 类 和 它们 相应 的 长 期 行为 


细节 平衡 原则 
这 一 原则 通常 在 统计 力学 中 使 用 。 细 节 平 衡 原则 表明 : 
在 热平衡 中 任何 转移 的 发 生 率 等 于 对 应 的 北 转 移 的 发 生 率 ， 可 表达 为 : 
MiP = TPH (11. 28) 
一 个 马尔 可 夫 链 满足 细节 平衡 原则 称 为 可 逆 的 。 
为 了 说 明 原 则 的 应 用 ， 我 们 将 用 它 来 导出 式 (11. 27) 的 关系 ， 它 是 平稳 分 布 的 定义 ， 我 们 
可 以 对 等 式 的 左边 进行 求 和 如 下 : 
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Dapa = D (Tbs) w = 2 Pia = Xx) 
在 等 式 的 第 二 行 中 我 们 应 用 了 细节 平衡 原则 ， 在 最 后 一 行 利 用 了 一 个 马尔 可 夫 链 的 转移 概率 满 
足 的 条 件 (参看 式 (11. 15)， 其 中 交换 了 i 和 j 的 作用 ) ， 


Dah MT A j 


从 上 述 讨论 ， 因 而 断定 细节 平衡 原则 意味 着 (x;) 是 一 个 平稳 分 布 。 就 平稳 分 布 的 范围 而 言 ， 
细节 平衡 原则 比 式 (11. 27) 更 强 ， 在 这 个 意义 上 它 对 平稳 分 布 是 充分 的 ， 不 是 必要 的 。 


11.4 Metropolis 算法 


至 此 我 们 弄 清 了 马尔 可 夫 链 的 构成 ， 我 们 将 应 用 它 构成 一 个 模拟 物理 系统 演化 到 热平衡 的 随 
机 算法 。 这 个 算法 称 为 Metropolis 算法 (Metropolis 等 ，1953)。 它 是 Monte Carlo 方法 的 一 种 修 
改 ， 在 早期 的 科学 计算 中 Monte Carlo 方法 是 对 大 量 原子 在 给 定 温度 下 的 平衡 态 的 随机 模拟 。 

由 于 它 是 Monte Carlo 方法 的 修改 ， 所 以 Metropolis 算法 也 通常 被 称 为 Markov chain Monte 
Carlo(MCMC) 方法 。 在 上 下 文中 ,我 们 可 以 正式 地 陈述 以 下 定义 《Robert and Casella, 1999). 


对 于 模拟 一 个 未 知 分 布 的 Markov Chain Monte Carlo 方法 是 指 产生 一 个 遍历 的 马尔 可 夫 链 而 它 


Metropolis 算法 非常 完美 地 符合 这 个 定义 ， 同 样 对 它 的 推广 形式 Metropolis-Hastings 算 
法 ” 也 是 如 此 。 
Metropolis 算法 的 统计 分 析 
假设 随机 变量 X, 表示 任 一 马尔 可 夫 链 在 时 刻 ”的 状态 为 zx:。 我 们 随机 生成 新 的 状态 t, 
它 表 示 另 一 个 随机 变量 Y, 的 一 次 实现 。 假 设 生 成 这 个 新 状态 满足 对 称 条 件 : 
PCY, = z; |X, = x) = P(Y, = 2; |X, = z) 
A> AE 表示 系统 从 状态 ,二 xz; BRAY, =r 所 产生 的 能 量 差 。 我 们 进行 如 下 处 理 : 
1. 如 果 能 量 差 AE 为 负 ， 则 这 次 转移 导致 一 个 较 低能 量 状 态 且 这 次 转移 被 接受 。 这 个 新 状 
态 也 就 接受 作为 算法 下 步 的 起 点 ， 即 我 们 令 X41=Y,. 
2. 反之 如 果 能 量 差 AE 为 正 ， 这 时 算法 以 概率 方式 进行 处 理 。 首 先 ， 我 们 选择 一 个 在 单 
位 区 间 [0，1] 上 均匀 分 布 的 随机 数 &。 如 果 e<exp(—AE/T), HY TARERE, BB 
EZH X=Y, GI, HEREA, E Xi 一 X.， 即 旧 的 配置 被 算法 的 下 一 步 重新 
利用 。 
转移 概率 的 选择 
对 任意 马尔 可 夫 链 ， 设 它 有 先 验 转移 概率 ， 记 为 z; ， 它 满足 三 个 条 件 ， 
1. aA: ty 0, 对 于 所 有 ij 
2. 归 一 化 Sry =1, 对 于 所 有 i 


3. 对 称 性 : Tk = Tio 对 于 所 有 isj 
S x 表示 马尔 可 夫 链 在 状态 xz;(i = 1,2,…,K) 的 平稳 态 概率 。 因 而 我 们 可 以 利用 已 定义 
的 对 称 的 c 和 概率 分 布 比 n/n: 来 构成 期 望 的 转移 概率 (Beckerman, 1997); 
Ty (=) ’ ym <1 
by = ™ ™ (11. 29) 
Ty yt 之 1 
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为 了 确保 转移 概率 归 一 化 为 单位 1， 我 们 引入 无 转移 概率 的 附加 定义 : 
pr = te + Dire (1— 2) =1~ Saves (11. 30) 
其 中 m 是 移动 概率 ， 定 义 为 
as 一 min(1,™) (11. 31) 


唯一 尚 需 解决 的 要 求 是 怎样 选择 比值 x;/x;。 为 满足 这 个 要 求 、 我 们 选择 概率 分 布 使 得 所 得 的 
马尔 可 夫 链 收敛 到 一 个 Gibbs 分 布 ， 表 示 为 : 


_ 1 E 
n= zal- 7) 
这 时 概率 分 布 比 m/m 的 简单 形式 为 ， 


Tj -一 _ AE 
zi exp( F ) (11. 32) 
其 中 
AE = E — E; (11. 33) 


利用 概率 分 布 比 可 以 排除 对 前 分 函数 Z 的 依赖 。 

根据 构造 ， 转 移 概 率 是 非 负 的 且 归 整 化 为 单位 1， 如 式 (11. 14) 和 式 (11. 15) 的 要 求 。 进 一 
步 ， 它 们 满足 由 式 (11. 28) 所 定义 的 细节 平衡 原则 。 这 个 定律 对 热平衡 是 一 个 充分 条 件 。 为 了 
说 明 满 足 细 节 平衡 原则 ， 我 们 给 出 下 列 的 考虑 : 

情况 1: AE 二 0。 假 设 从 状态 r 转移 到 状态 x;， 能 量变 化 AE 为 负 。 从 式 (11. 32) 我 们 发 
现 x/z 这 1， 所 以 利用 式 (11. 29) 得 到 

Xipy = UTZ 一 UT; 
和 
Ti 
GPa = (rs) = TT ji 

因此 当 AE<O 时 满足 细节 平衡 原则 。 


情况 2，AE>0。 假 设 从 状态 x; 到 状态 c; 的 能 量变 化 AE 为 正 ， 这 时 我 们 发 现 Cx /md< 
1， 利 用 式 (11. 29) 得 到 


Tipy = xi( Zr) Ty MT 


和 
WPi = TPs 
这 里 细节 平衡 原则 得 到 满足 。 

为 了 完整 起 见 ， 我 们 需要 指出 由 zy 表示 的 先 验 转 移 概 率 的 使 用 。 这 些 转 移 概 率 事实 上 是 
Metropolis 算法 中 的 随机 步 的 概率 模型 。 由 前 面 的 算法 描述 ， 我 们 回忆 随机 步 后 面 是 随机 决 
策 。 因 此 可 以 得 出 结论 ， 利 用 由 先 验 转移 概率 zi 在 式 (11. 29) 和 式 (11. 30) 定 义 的 转移 概率 加 
和 平稳 概率 分 布 x; 对 Metropolis 算法 来 说 确实 是 正确 的 选择 。 

我 们 可 以 得 出 由 Metropolis 算法 产生 一 个 马尔 可 夫 链 '。 它 的 转移 概率 确实 收敛 到 一 个 独 
一 平稳 的 Gibbs 分 布 (Beckerman，1997)。 


11.5 模拟 退火 


考虑 寻找 一 个 低能 量 系统 的 问题 ， 其 状态 由 一 个 马尔 可 夫 链 排序 。 由 式 (11. 11) 观 察 到 当 
温度 荆 趋 近 于 零 ， 系 统 的 自由 能 量 下 趋 近 平均 能 量 《E》。 由 F>《E〉， 我 们 观察 到 由 自由 能 量 
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最 小 化 原则 ， 该 马尔 可 夫 链 的 平稳 分 布 〈 即 Gibbs 分 布 ) ， 当 T->0 NPB SPER AER CE) 的 
全 局 极 小 点 。 换 名 话说， 序列 中 的 低能 状态 在 低温 时 受到 更 强 的 支持 。 这 些 观 察 促使 我 们 提 
出 问题 : 为 什么 不 简单 地 应 用 Metropolis 算法 产生 大 量 的 代表 该 随机 系统 在 很 低温 度 下 的 构 
JÉ (Configuration)? 我 们 不 提倡 使 用 这 种 策略 是 因为 在 很 低 漫 度 下 马尔 可 夫 链 到 热平衡 的 收 
敛 速度 特别 慢 。 而 提高 计算 效率 更 好 的 方法 是 在 较 高 温度 运行 随机 系统 ， 这 时 达到 平衡 态 的 
收敛 相当 快 ， 接 着 随 温度 的 精细 下 降 保 持 系统 的 平衡 态 。 也 就 是 ， 我 们 使 用 两 个 相关 成 分 的 
组 合 : 

1. 一 个 决定 温度 下 降 速度 的 调度 表 。 

2. 一 个 算法 (如 Metropolis 算法 ) 欠 代 求解 每 个 调度 表 给 出 的 新 的 温度 下 的 平衡 分 布 ， 
这 时 利用 前 面 温度 时 的 最 终 状态 作为 新 温度 时 的 起 始点 。 

我 们 刚才 提 到 的 两 步 格式 是 被 广泛 使 用 的 以 模拟 退火 著称 的 随机 松弛 技术 的 精华 (Kirk- 
patrick 等 ，1983) 。 这 个 技术 的 名 字 是 类 比 物 理 / 化 学 中 的 退火 过 程 得 到 的 ， 在 物理 /化 学 的 退 
火 过 程 中 ， 我 们 从 高 温度 开始 退火 过 程 ， 接 着 慢 慢 降低 温度 同时 保持 热平衡 。 

模拟 退火 最 初 的 目标 是 寻找 刻画 复杂 大 系统 的 代价 函数 的 全 局 极 小 点 。 正 是 因为 如 此 ， 它 
提供 一 个 求解 非 凸 最 优化 问题 的 有 力 工 具 ， 这 由 下 面 的 简单 想法 所 导致 : 


当 优化 一 个 非常 复杂 的 大 系统 〔〈 即 具有 许多 自由 度 的 系统 ) 时 不 要 求 总 是 下 降 而 是 试图 要 
求 大 部 分 时 间 在 下 降 。 

模拟 退火 在 两 方面 与 传统 的 迭代 优化 算法 不 同 : 

1. 算法 不 会 陷入 局 部 最 小 ， 因 为 当 系 统 在 非 零 温度 上 运行 时 脱离 局 部 最 小 总 是 可 能 的 。 

2. 模拟 退火 是 自 适应 的 ， 在 高 温 时 看 见 系 统 的 终 态 的 大 致 轮廓 ， 而 它 的 具体 细节 在 低温 
度 时 才 呈 现 出 来 。 
退火 进度 表 

如 前 面 提 到 的 ， 模 拟 退 火 过 程 的 基础 是 Metropolis 算法 ， 其 间 温 度 工 慢 慢 下 降 。 也 就 是 
说 ， 温 度 工 起 调节 参数 的 作用 。 假 定 温度 下 降 没有 对 数 快 ， 则 模拟 慢火 过 程 将 收敛 于 一 个 具 
有 最 小 能 量 的 构 形 。 遗 憾 的 是 这 种 退火 进度 太 慢 了 一 一 慢 得 不 切实 际 。 实 际 上 ， 我 们 必须 求 诸 
于 算法 的 渐进 收敛 的 有 限时 间 禹 近 。 这 种 和 逼近 所 付出 的 代价 是 算法 不 再 以 概率 1 保证 找到 全 局 
最 小 点 。 然 而 算法 的 通 近 结果 在 许多 实际 应 用 上 能 产生 近似 最 优 解 。 

为 了 实现 模拟 退火 算法 的 有 限时 间 逼 近 ， 我 们 必须 设 定 一 系列 控制 算法 收敛 的 参数 ， 这 些 
参数 组 合成 所 谓 的 退火 进度 表 或 冷却 进度 表 。 退 火 进度 表 设 定 一 个 温度 的 有 限 序列 值 ， 以 及 每 
一 温度 值 下 有 限 的 转移 尝试 的 次 数 。Kirkpatrick 等 (1983) 给 出 的 退火 进度 表 的 感 兴 值 的 参 





数 设 定 如 下 : 
1. 温度 的 初始 值 。 温 度 的 初始 值 To 选 得 足够 高 使 得 所 有 提出 的 转移 实际 都 能 被 模拟 退火 
算法 所 接受 。 


2. 温度 的 下 降 。 一 般 地 说 ， 冷 却 是 按 指数 形式 完成 的 ， 并 且 温 度 值 的 改变 量 都 很 小 。 特 
别 地 ， 下 降 函 数 定义 为 
T, = oaTrisk = 1,2,- (11. 34) 
其 中 小 于 但 接近 于 1. a 的 典型 值 介 于 0.8 和 0. 99 之 间 。 对 每 一 温度 ， 有 足够 的 转移 的 尝 
试 ， 使 得 平均 每 次 实验 有 10 次 转移 被 接受 。 
3. 温度 的 最 后 值 。 如 果 在 三 次 相连 的 温度 下 没有 得 到 预期 的 接收 次 数 ， 则 系统 被 冻结 且 
退火 停止。 
一 个 标准 可 以 改进 ， 要 求 接受 率 小 于 一 预定 值 ， 而 接受 率 定义 为 转移 接受 的 次 数 除 以 提 
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出 转移 的 次 数 (Johnson Æ, 1989). 
模拟 退火 用 于 组 合 优化 

模拟 退火 特别 适用 于 解 组 合 优化 问题 。 组 合 优化 的 目标 是 针对 有 很 多 可 能 解 的 有 限 离 散 系 
统 ， 最 小 化 它 的 代价 函数 。 本 质 上 讲 模拟 退火 利用 Metropolis 算法 通过 多 粒子 物理 系统 和 组 合 
优化 问题 间 的 类 比 生成 一 系列 解 。 

在 模拟 退火 中 ， 我们 把 式 (11. 5) 的 Gibbs 分 布 中 的 能 量 E 解释 成 为 数值 的 代价 ， 
而 温度 工 解释 为 控制 参数 。 在 组 合 优 化 问题 中 对 表 11.1 统计 物理 与 组 合 优化 之 间 的 对 应 








每 一 构 形 赋予 一 数值 的 代价 以 描述 这 个 特殊 的 构 形 “统计 物理 | 组合 优化 o 
和 解 的 差异 。 模 拟 退 火 程序 中 下 一 个 需要 考虑 的 问 样本 问题 实例 
题 是 如 何 确认 构 形 和 从 已 有 构 形 以 局 部 方式 产生 新 ca or 
的 构 形 。 这 就 是 Metropolis 算法 发 挥 作 用 之 处 。 温度 控制 参数 
因此 我 们 概括 统计 物理 的 术语 和 组 合 优 化 术语 之 间 基态 能 基 最 小 代价 
的 关系 如 表 11. 1 所 示 (Beckerman，1997) 。 Bene | aak _ 


11.6 Gibbs 抽样 


类 似 于 Metropolis 算法 ，Gibbs 4B’ 生成 一 个 马尔 可 夫 链 ， 它 以 Gibbs 分 布 作为 平衡 
分 布 。 但 是 Gibbs 抽样 器 的 转移 概率 是 非 平 稳 的 〈Geman and Geman，1984)。 在 最 后 的 分 析 
里 ， 关 于 Gibbs 抽样 和 Metropolis 算法 的 选择 取决 于 具体 问题 的 技术 细节 。 

为 了 继续 描述 这 个 抽样 格式 ， 考 虑 一 个 K 维 的 随机 向 量 X， 由 分 量 X ,X;,… ,Xxk 构成 。 
假定 在 给 定 X 的 其 他 分 量 时 我 们 知道 X, 的 条 件 分 布 ,&= 1,2,…,K 。 我 们 想 问 的 问题 是 : 对 
任何 上 ， 怎 样 获得 随机 变量 X. 的 边缘 密度 的 数值 估计 。 对 随机 向 量 X 的 每 个 分 量 ， 在 已 知 X 
的 其 他 分 量 值 的 条 件 下 ，Gibbs 抽样 器 对 它 的 条 件 分 布 产生 一 个 值 。 特 别 地 ， 从 任意 构 形 
{zi1(0) ,zz(0),… ,zk (0)} 开始 ， 我 们 在 Gibbs 抽样 的 第 一 次 和 迭代 时 做 下 列 采 样 : 

zi(1) 是 在 已 知心 (0),zs(0)，…zk(0) 时 由 X 的 分 布 产 生 的 采样 。 

zs(1)〉 是 在 已 知 zx1(1) 23 (0) ox (0) 时 由 X 的 分 布 产生 的 采样 。 


zi(1) PEPE n)a) ,TH1(0),… ,xk CO) 时 由 XX; 的 分 布 产生 的 采样 。 

rk) 是 在 已 知 zi CU ,zz(1),… sre CL) 时 由 Xx 的 分 布 产生 的 采样 。 

在 第 二 次 迭代 和 其 他 的 每 次 抽样 迭代 中 我 们 用 这 种 方式 进行 处 理 。 以 下 两 点 需要 特别 
注意 : 

1. 随机 向 量 X 的 每 个 分 量 是 以 自然 序列 “访问 ”的 ， 每 次 选 代 产 生 总 共 K 个 新 的 变量 值 。 

2. 对 于 上 = 2,3，,…,K ， 在 对 Xe 采样 新 值 时 直接 利用 分 量 Xx-: 的 新 的 值 。 

由 这 个 讨论 我 们 看 到 Gibbs FERRER HEARR. AMEH n KERE. RDN 
K 个 变化 量 : XOD, Xm ,Xk Cn) 。 在 相当 温和 的 条 件 下 ， 以 下 三 个 定理 对 Gibbs 抽样 成 
立 (Geman and Geman,1984;Gelfand and Smith,1990) : 

1. 收 化 定理 。 当 太一 1,2,…,K,n 趋 于 无 穷 大 时 ， 随 机 变量 X; Cn) 依 分 布 收敛 于 X 的 真 
实 概率 分 布 ， 也 就 是 说 ， 

limP CX <x|z,(0)) = Px, (x), “Ok = 1,2,°°,K (11. 35) 

其 中 Px, (z) WX, 的 边缘 概率 分 布 函数 。 

事实 上 ， 在 Geman and Geman(1984) 中 证 明了 更 强 的 结果 。 特 别 地 ， 不 要 求 随机 向 量 X 
的 每 个 分 量 以 自然 顺序 被 重复 访问 ， 任 意 的 访问 方式 只 要 不 依赖 于 变量 的 值 且 X 的 每 个 分 量 被 
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“无 限 地 经 常 ”访问 ， 则 Gibbs 抽样 收敛 性 仍 成 立 。 

2. 收效 速度 定理 。 随 机 变量 Xi (mn), X2(n) ,… ,Xx(n) 的 联合 概率 分 布 以 n 的 几何 级 数 速 
FEU XX, ay XK 的 联合 分 布 函数 。 

这 个 定理 假设 X 的 分 量 以 自然 顺序 访问 。 但 是 当 任 意 的 但 无 限 地 经 常 访 问 时 ， 收 敛 速度 需 
要 较 小 的 调整 。 

3. 遍历 定理 。 对 任何 (例如 对 于 随机 变量 X Xe Xk) 的 可 测 函 数 g， 它 的 期 望 存 
在 ， 有 


lim + D) g (X DX Doe Xa (D) > ELg (Xi Xp ,es Xu)] (11. 36) 


以 概率 1 〈 即 几乎 肯定 ) 实现。 

遍历 定理 告诉 我 们 怎样 利用 Gibbs 采样 的 输出 获得 所 期 望 的 边缘 密度 的 数值 估计 。 

在 Boltzmann 机 中 使 用 Gibbs 采样 对 有 关 隐 藏 神经 元 的 分 布 进行 采样 ; 这 种 随机 机 器 将 在 
下 一 节 讨 论 。 对 于 使 用 二 值 单元 的 随机 机 器 〈 即 Boltzmann 机 ) 来 说 ， 值 得 注意 的 是 Gibbs $ 
样 正好 和 Metropolis 算法 的 一 个 变 体 完全 一 样 。 在 Metropolis 算法 的 标准 形式 中 我 们 以 概率 1 
下 山 ， 相 反 地 在 Metropolis 算法 的 另 一 个 形式 中 ， 我 们 以 1 或 能 量 差 的 指数 〈 即 上 出 规则 的 补 
充 ) 的 概率 下 山 。 换 句 话说， 如 果 一 个 变化 降低 了 能 量 瓦 或 下 没有 变化 时 ， 则 这 个 变化 被 接 
受 ; 如 果 变 化 升 高 了 能 量 ， 它 是 以 exp( 一 AE) 的 概率 被 接受 ， 否 则 被 拒绝 ， 而 以 旧 的 状态 重 
复 (Neal，1993) 。 


11.7 Boltzmann 机 


Boltzmann 机 是 由 随机 神经 元 组 成 的 二 值 随机 机 器 ， 随 机 神经 元 以 概率 方式 取 两 个 可 能 状 
态 之 一 。 这 两 个 状态 可 以 指定 为 十 1， 表 示 “ 开 ”状态 ， 指 定 为 一 1 RM “K” RS, 或 分 别 
用 1 和 0 表示。 我 们 将 采用 前 面 的 记号 。Boltzmann 机 另 一 个 突出 的 特征 就 是 它 的 神经 元 间 使 
用 对 称 的 突 触 连接 ， 这 种 形式 的 突 触 连 接 也 有 统计 物理 方面 的 考虑 。 

Boltzmann 机 的 随机 神经 元 分 成 两 部 分 功 
能 组 ， 如 图 11.5 所 示 为 可 见 部 分 和 隐藏 部 分 。 
可 见 神经 元 : 提供 网 络 和 它 运 行 环境 之 间 的 一 个 
界面 。 在 网 络 的 训练 阶段 ， 所 有 可 见 神经 元 都 
被 钳制 在 环境 所 决定 的 特定 状态 。 另 一 方面 ， 
隐藏 神经 元 总 是 自由 送行 的 ， 它 们 用 来 解释 环 
境 输 入 向 量 包 含 的 固有 约束 。 隐 藏 神经 元 通过 
捕获 钳制 向 量 中 的 高 阶 统计 相关 来 完成 这 项 任 
务 。 这 里 所 叙述 的 网 络 代 表 Boltzmann 机 的 一 种 
特殊 情况 。 它 可 以 看 成 是 对 某 确定 概率 分 布 建 模 
的 无 监督 学 习 程 序 ， 该 确定 概率 分 布 决定 于 在 可 
见 神经 元 上 以 合适 的 概率 钳制 模式 。 这 样 做 ， 网 














11.5 Boltzmann 机 体系 结构 图 ; K 为 可 见 神经 
TRA. L 为 隐藏 神经 元 数目 。 了 Boltzmann 


络 能 起 到 模式 完 形 (pattern completion) 的 作用 。 的 优点 是 ，1. 可 见 神经 元 和 隐藏 神经 元 的 
特别 地 ， 当 一 部 分 携带 信息 的 向 量 钳制 在 可 见 神 连接 是 对 称 的 。2. 对 称 连 接 延 伸 到 可 见 神 
经 元 的 子 集 上 ， 如 果 网 络 已 经 恰当 地 学 会 了 训练 经 元 和 隐藏 神经 元 


分 布 ， 这 时 网 络 能 够 对 剩 下 的 可 见 神经 元 网 络 给 出 它们 的 恰当 的 值 ， 起 到 模式 完 形 的 作用 。 
Boltzmann 机 学 习 的 主要 目的 是 产生 一 个 神经 网 络 ， 根 据 Boltzmann 分 布 对 输入 模式 进行 
正确 的 建 模 。 在 这 种 学 习 的 应 用 中 ， 假 设 两 种 情况 : 


第 11 章 植 根 于 统计 力学 的 随机 方法 + 379 


L 每 个 环境 输入 向 量 〈 模 式 ) 持续 足够 长 的 时 间 ， 人 允许 网 络 达到 热平衡 。 

2. 环境 向 量 钳 制 在 网 络 可 见 单元 上 的 次 序 是 没有 任何 结构 的 。 

一 组 特定 的 突 触 权 值 当 它 导 出 的 可 见 单元 状态 的 概率 分 布 〈 当 网 络 自由 运行 时 ) 和 可 见 单 
元 被 环境 输入 向 量 所 钳制 时 的 状态 概率 分 布 完全 一 样 ， 我 们 说 它 构造 了 环境 结构 的 一 个 完整 模 
型 。 一 般 情况 下 ， 除 非 隐藏 单元 数目 是 可 见 单元 数目 的 指数 ， 否 则 不 可 能 得 到 完整 模型 。 但 
是 ， 如 果 环 境 有 规则 的 结构 ， 网 络 利用 隐藏 单元 捕获 这 些 规 则 ， 这 时 利用 较 小 能 处 理 的 隐藏 神 
经 元 数目 可 以 对 环境 取得 一 个 好 的 匹配 。 

Boltzmann 机 的 Gibbs 抽样 和 模拟 退火 
A x 表示 Boltzmann 机 的 状态 向 量 ， 它 的 分 量 zx; 表示 神经 元 i 的 状态 。 状 态 x 代表 随机 向 
量 义 的 一 次 实现 。 从 神经 元 i 到 神经 元 7 的 突 触 连 接 记 为 W;， 满 足 ; 
wi = Wy 对 于 所 有 i (11. 37) 
和 
we = 0， 对 于 所 有 (11. 38) 
式 (11. 37) 描 述 对 称 性 ， 而 式 (11. 38) 强 调 无 自 反 馈 。 偏 置 可 以 利用 一 个 输出 恒 为 十 1 的 虚 节 点 
到 神经 元 ; (对 所 有 7) 的 连接 权 值 wo 表示 。 
类 似 于 热 动 力学 ，Boltzmann 机 的 能 量 可 定义 为 ”: 


E(x) 一 一 1 D Nese, (11. 39) 


利用 式 (11. 5) 的 Gibbs 分 布 ， 我 们 可 以 定义 网 络 〈 假 定 处 在 温度 T 的 平衡 态 ) 在 状态 x 的 概率 
如 下 : 





P(X = v = bep- EL) (11. 40) 
其 中 Z 为 前 分 函数 。 
为 了 简化 表示 ， 定 义 单个 事件 A 及 联合 事件 B 和 C 如 下 : 
A:X;= 2; 
B:{X, = zi}tiwithiz#j 
C:{X; = zi} 


实际 上 ,联合 事件 B 排斥 A， 而 联合 事件 C 包 括 A 和 B。B 的 概率 是 C 关于 A 的 边缘 概率 。 
因此 ， 利 用 式 (11. 39) 和 式 (11. 40)， 我 们 可 写作 : 
P(O) = P(A1B) = Gex( zp >) Dwar) (11.41) 


i#j 


和 
P(B) = DLP (A,B) = 5 Dyexr( zy D wets) (11. 42) 


在 式 (11. 41) 和 式 (11. 42) 中 的 指数 可 以 表示 成 两 项 之 和 ， 一 项 与 m 有 关 ， 而 另 一 项 与 x 无 
关 。 包 含 zx; HRA: 








oT Dwiz: 
i#j 
P(A,B) _ 1 
P(A|B) P(B) 一 


1+ exp(— 7 Vwi) 


itj 
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也 就 是 可 写成 : 
P(X; = z| {X; = xi) Ein) = of = dwt.) (11. 43) 
其 中 p(.) 为 它 变 元 的 logistic 函数 ， 表 示 为 
= l 
glv) IF exp o) 《11. 44) 


注意 ，z 虽然 在 一 1 和 十 1 间 变 化 ， 但 当 "充分 大 时 ， 整 个 变量 v= Zwir: HE oF 


十 co 之 间 变 化 ， 如 图 11. 6 所 描画 的 。 同 时 注意 ， 在 推导 式 (11. 43) 时 ， 不 需 剖 分 函数 Z， 这 是 
高 度 期 望 的 ， 因 为 对 于 非常 复杂 的 网 络 直 接 计算 Z 是 不 现 


实 的 。 1.0 
利用 Gibbs 抽样 表示 联合 分 布 P(A4，B)。 基 本 上 ， 如 PC) 
11. 6 节 所 解释 的 那样 ， 这 个 随机 模拟 开始 时 给 网 络 赋予 任 0.5 


一 状态 ， 神 经 元 以 它们 的 自然 顺序 依次 重复 访问 ， 每 次 访 
问 ， 选 择 一 个 神经 元 ， 根 据 其 他 神经 元 的 值 确定 该 神经 元 i y 
状态 新 值 的 选择 概率 。 假 定 这 个 随机 模拟 进行 足够 长 的 时 

间 ， 则 网 络 将 达到 在 温度 工 下 的 平衡 。 图 11.6 Sigmoid 形状 函数 P) 

遗憾 的 是 到 达 热 平衡 的 时 间 可 能 非常 长 。 为 了 克服 这 个 困难 ， 如 同 在 11. 5 节 所 解释 的 那 
样 ， 对 有 限 温度 序列 To Tio Timw ， 使 用 模拟 退火 。 特 别 地 ， 温 度 被 初始 化 为 一 个 高 的 值 
T。， 因 此 可 迅速 到 达 执 平衡。 然后， 温度 了 逐渐 降低 至 最 后 值 Tu， 这 时 神经 元 状态 将 A 
希望 ) 达到 它们 的 边缘 分 布 。 

Boltzmann 学 习 规 则 

因为 Boltzmann 机 是 -一 种 随机 机 器 ， 它 自然 依赖 于 用 概率 论 评价 其 性 能 。 这 种 标准 之 一 是 
WR BR | EREHE, HER AMARA, Boltzmann 学 习 的 目标 是 最 大 化 似 然 函数 或 等 
价 的 对 数 似 然 函 数 ， 这 个 原则 在 第 10 章 中 讨论 过 。 

令 9 表 示 感 兴趣 的 概率 分 布 抽 桩 所 组 成 的 训练 样本 。 假 设 它们 都 是 二 值 的 。 训 练 样 本 允许 
重复 , 但 必须 和 它们 发 生 的 概率 成 比例 。 令 状态 向 量 x HTE x 表示 可 见 神经 元 状态 。 向 量 x 
的 剩余 部 分 x, 表示 隐藏 神经 元 的 状态 。 状 态 向 量 x，x 和 x, 分 别 表示 随机 向 量 X，X。 和 Xe 的 
W., Boltzmann 机 的 运行 分 成 两 个 阶段 : 

1. 正 向 阶段 。 此 时 网 络 在 钳制 环境 下 《〈 即 在 训练 集 了 的 直接 影响 下 ) 运行 。 

负 向 阶段 。 在 第 二 阶段 ， 网 络 允 许 自由 运行 ， 因 此 没有 环境 输入 。 
sh me ee anc w， 可 见 神经 元 状态 为 WHEE PA, =x). MRR HE 


含 许多 可 能 值 x ， 假 定 它们 是 统计 独立 的 ， 总 体 的 概率 分 布 是 析 因 分 布 [| PA =x). 为 了 
写 出 对 数 似 然 函 数 L(w) ， 对 析 因 分 布 取 对 数 且 将 w 看 作 未 知 的 参数 向 量 。 因 此 可 以 写成 
Low) = log [| P(X, = x.) = >)logP(X, = x.) (11. 45) 
为 了 通过 能 量 函 数 形成 边缘 概率 POX —x) 的 表达 式 ECO, 利用 以 下 两 点 : 
L 由 式 (11. 40)， 概 率 PA= F exp E/T), 


2. 由 定义 ， 状 态 向 量 x 是 属于 可 见 神经 元 的 状态 x, 和 属于 隐藏 神经 元 的 状态 xy 的 联 立 组 
。 因 此 可 见 神经 元 处 于 状态 x, 与 任何 xp 的 概率 为 : 
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P(X, =x.) = zoe ) (11. 46) 
其 中 随机 向 量 X. 是 X 的 子 集 ， 剖 分 函数 Z 定义 为 : 
Z= 27exp( 一 EW) (11. 47) 
因而 将 式 (11. 46) 和 起 (11.47) 代 人 起 (11. 45), 得 出 对 数 似 然 函 数 所 期 望 的 表达 式 ， 
Low) = X (lo Dexe(— Em) 一 log exp( 一 Em )) (11. 48) 


对 w 的 依赖 包含 在 能 量 函数 EQ, 如 式 (11. 39) 所 示 。 
依据 式 (11. 39), KR Low) MH wi 的 微分 ， 经 过 一 些 运 算 后 我 们 得 到 下 列 结果 (参看 习题 
11.9); 





LW ESN ( SPO lx =A — PK mon) C149) 


x ET Xg 
为 了 简单 起 见 ， 我 们 引入 两 个 定义 : 
L pk =< ra t= >) APO = lX = OGT: (11. 50) 
x, ET Xp 
2. P= 《rr > = >) SPX = Wr, (11.51) 


从 宽松 意义 上 我 们 可 以 将 第 一 项 平均 值 oi 看 成 点 火 率 的 平均 ， 或 神经 元 ; 和 ji 的 状态 之 间 的 相 
关 性 ， 此 时 网 络 在 钳制 下 运行 或 者 说 处 于 正 向 阶段 。 类 似 地 ， 第 二 项 均值 pi 可 看 成 神经 元 i 和 
j 的 状态 间 的 相关 性 ， 此 时 网 络 自由 运行 或 者 说 是 处 于 负 向 阶段 。 利 用 这 些 定 义 ， 可 以 简化 式 
(11.49 F: 











oL(w) 1, + _ 
Ow (pri Pit) Cll. 52) 
Boltzmann 机 学 习 的 目的 是 最 大 化 对 数 似 然 函 数 LCw)， 我 们 可 以 利用 梯度 下 降 法 达到 这 一 点 ， 写 成 
< ol ) + - 
Aw; = eSa T Mi — pi (11. 53) 
其 中 7 了 是 学 习 率 参数 ; 它 通 过 < 和 运行 温度 工 定义 为 
7 一 F (11. 54) 


式 (11.53) 的 梯度 下 降 规则 称 为 Boltzmann 学 习 规 则 。 这 里 所 叙述 的 学 习 是 集中 完成 的 ; 即 突 
触 权 值 的 改变 是 在 整个 训练 样本 集 都 给 出 的 情况 下 进行 的 。 


总 结 


式 (11.53) 描 述 的 Boltzmann 机 学 习 规 则 的 简易 性 归 因 于 这 样 的 事实 ， 即 在 神经 元 的 两 种 
不 同 操作 条 件 使 用 局 部 可 观测 量 ， 这 两 个 不 辐 条 件 为 : 一 部 分 钳制 运行 ， 另 外 的 自由 运行 。 规 
则 另 一 个 有 趣 的 特征 是 神经 元 i 和 7 之 间 的 突 触 权 值 的 调整 规则 是 独立 于 神经 元 的 可 见 与 否 
的 ， 不 管 它们 可 见 或 都 不 可 见 ， 这 一 点 可 能 令 人 吃惊 。Boltzmann 学 习 的 所 有 这 些 有 益 的 特征 
归功 于 Hinton and Sejnowski(1983, 1986) 的 关键 性 见解 ， 它 们 将 Boltzmann 机 的 抽象 数学 模 
型 和 神经 元 网 络 在 以 下 两 点 上 联系 起 来 : 

。 描述 一 个 神经 元 的 随机 性 的 Gibbs 分 布 。 

。 定义 Gibbs 分 布 的 基于 统计 物理 学 的 能 量 函 数 式 (11. 39)。 

但 是 从 实际 观点 看 ， 典 型 地 ， 我 们 发 现 Boltzman 机 中 学 习 过 程 是 很 慢 的 ， 特 别 当 机 器 中 
使 用 的 隐藏 神经 元 个 数 多 的 时 候 . 这 个 令 人 不 快 的 特征 的 原因 是 因为 机 器 需要 很 长 一 段 时 间 来 
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达到 平衡 分 布 ， 这 通常 在 可 见 单元 不 被 钳制 的 时 候 经 常 发 生 。 

虽然 如 此 ， 过 去 的 这 些 年 里 ， 对 随机 机 器 的 研究 持续 关注 ， 这 些 关 注 分 享 古典 Boltzman 
机 对 二 进 制 向 量 学 习 概率 分 布 的 能 力 ， 但 也 能 够 实现 以 下 两 个 功能 : 

1. 忽略 Boltzman 机 负 向 学 习 ， 负 向 学 习 为 时 间 的 增加 而 负责 。 同 时 找到 一 些 用 于 运用 控 
制 学 习 过 程 的 其 他 方法 。 

2. 在 密 连接 网 络 中 的 有 效 操作 。 

在 下 面 的 两 节 ， 我 们 介绍 两 个 通过 不 同方 式 来 解决 这 两 个 实际 问题 的 方法 。 


11.8 logistic 信和 度 网 络 


第 一 代 logistic 信 度 网 络 由 Neal 在 1992 年 所 发 展 ，Boltzmann 机 中 对 称 连 接 被 有 向 连接 
取代 ， 从 而 形成 无 环 图 ， 这 也 使 Neal 的 偏 置 oo 
logistic 信 度 网 络 称 为 有 向 信和 度 网 络 (di- 
rected belief net); 今后 这 两 个 术语 可 替换 
地 使 用 。 特 别 地 ， 一 个 logistic 信和 度 网 络 由 
多 层 结构 组 成 ， 如 图 11.7 所 示 。 机 器 具有 
无 环 的 性 质 使 得 概率 计算 简单 。 类 似 于 
Boltzmann 机 ， 网 络 利 用 式 (11.43) 的 lo- 
gistic 函数 计算 一 个 神经 元 受到 它 自己 的 诱 
导 局 部 域 刺激 时 的 条 件 概率 。 输入 
令 向 量 X 由 二 值 随机 变量 X, 1X: 97°" 9 
Xn 组 成 ， 它 定义 由 N 个 随机 神经 元 构成 
的 一 个 logistic 信 度 网 络 。 在 和 X 中 的 元 素 








Xi 的 双亲 (图 11.7 PAJ BAR WA: 图 11. 7 logistic 信 度 网 络 
pa(X;) Z {Xi 4X25 Xa} (11. 55) 
也 就 是 说 ， 其 中 随机 向 量 X DWT (x, mse ， zj;)}， 它 的 条 件 概率 
P(X; = z |X. = ri, Ki = za) = PX, = z |pa CX;)) (11. 56) 


参考 图 11.7， 例 如 ， 节 点 ;是 节点 了 的 双亲 节点 ， 因 为 节点 :到 节点 ]/ 是 有 向 连接 。logistic 
信和 度 网 络 的 一 个 重要 优点 就 是 它 能 清楚 揭示 输入 数据 的 固有 概率 模型 的 条 件 依赖 性 。 特 别 
Hh, Sj 个 神经 元 被 激发 的 概率 由 logistic 函数 定义 ， 其 中 w; 是 从 神经 元 i 到 神经 元 j 的 突 
触 权 值 ， 条 件 概 率 仅 依赖 于 pa(X;) 的 输入 加 权 和 。 因 此 ， 式 (11. 56) 提 供 信和 度 在 网 络 中 传播 
的 基础 。 

在 两 种 非 空 (null) 条 件 下 进行 计算 logistic 信和 度 网 络 的 条 件 概率 : 

1. wi 二 0， 对 所 有 不 属于 pa(X;) 的 XX:， 这 一 点 由 双亲 的 定义 可 得 。 

2. wy 二 0， 对 所 有 >j, XAH logistic 信 度 网 络 是 有 向 无 环 图 这 个 事实 可 得 。 

正如 Boltzmann 机 一 样 ， 我 们 导出 logistic 信 度 网 络 所 期 望 的 学 习 规 则 时 仍然 最 大 化 对 数 
似 然 函 数 ， 对 于 样本 集合 了 最 大 化 式 (11. 45) 中 对 数 似 然 函 数 式 LC(w)。 同 时 最 大 化 通过 定义 如 
下 突 触 权 值 w; 的 变化 伴随 着 在 概率 空间 中 使 用 梯度 下 降 算 法 : 
其 中 7 是 学 习 率 参数 ， 而 权 值 向 量 w 表示 整个 网 络 。 


但 是 ，logistic 信和 度 网 络 学 习 过 程 的 一 个 严重 缺陷 是 当 它 运 用 到 密 连 接 网 络 中 的 时 候 ， 隐 
项 神经 元 的 后 验 概率 的 计算 很 棘手 ， 除 非 在 一 些 简 单 的 应 用 中 ， 例 如 带 加 性 高 斯 噪声 的 线性 模 
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型 。 和 Boltzmann 机 一 样 ，Gibbs 抽样 同样 可 以 用 于 近似 后 验 概率 ， 但 是 在 logistic 信 度 网 络 
中 使 用 Gibbs 抽样 被 认为 更 加 复杂 。 


11.9 深度 信和 度 网 络 


为 了 克服 logistic(directed) 信和 度 网 络 中 推理 应 用 的 困难 的 缺点 ，Hinton 等 (2006) 发 展 了 
一 种 新 的 logistic 信 度 网 络 ， 而 这 种 网 络 中 推理 很 容易 完成 。 这 个 模型 与 logistic 信和 度 网 络 中 一 
样 ， 模 型 可 以 通过 同样 的 方式 学 习 得 到 ， 除 了 在 最 顶层 的 不 同 之 外 ， 它 “〈 以 这 种 新 方式 ) 形成 
了 无 向 联想 记忆 。 事 实 上 ， 正 是 这 种 特点 使 这 种 新 的 网 络 被 称 为 深度 信和 度 网 络 。 

在 Smolensky(1986) 中 首先 描述 深度 信和 度 网 络 建立 在 一 个 神经 网 络 结构 上 ;同时 这 个 结 
构 被 称 为 “小 风 雁 Charmonium) ”这 种 “小 风琴 ”的 特别 之 处 在 于 在 可 见 神经 元 和 隐藏 神经 
元 之 间 没 有 连接 ; 否则 ， 它 将 和 Boltzmann 机 一 样 在 可 见 神经 元 和 隐藏 神经 元 之 间 使 用 对 称 连 
接 。 由 于 上 述 不 同 ， 这 个 “小 风琴 ”也 在 Hinton 等 (2006) 中 被 命名 为 受 限 Boltzmann 机 
(restricted Boltzmann machine，RBM)。 就 第 
一 上 腿 所 见 ， 可 能 令 人 惊讶 地 发 现 : 一 个 对 称 连 
接 模 型 《如 受 限 Boltzmann WL) 可 以 如 同 lo- 
gistic 信和 度 网 络 一 样 学 习 一 个 有 向 产生 模型 。 

由 于 在 RBM 中 隐藏 神经 元 之 间 没 有 连接 ， 

也 因为 在 可 见 神 经 元 和 隐藏 神经 元 间 的 连接 是 可 见 层 
无 向 的 〈( 详 见 图 11. 8)， 则 给 定 可 见 状态 ， 隐 

藏 神经 元 的 状态 相互 之 间 是 条 件 独 立 的 。 所 以 ”图 11.8 RBM 的 神经 结构 。 与 图 ce cantata 
给 定 一 个 向 量 钳制 在 可 见 神经 元 之 后 ，RBM ASL Boltzmann LA 和 i 
能 够 抽取 后 验 分 布 中 无 偏见 的 样本 。RBM 的 见 神 经 元 之 间 和 隐藏 神经 元 之 间 没有 连接 
这 个 特点 使 得 其 对 相应 的 有 向 信 度 网 络 具有 很 大 优势 (Hinton, 2007), 

一 个 感 兴趣 的 地 方 就 是 如 图 11. 9 所 示 的 权 值 固定 的 无 限 的 logistic 信和 度 网 络 和 图 11.8 所 
示 的 单 RBM 是 等 价 的 。 

受 限 Boltzmann 机 中 最 大 似 然 学 习 

由 式 (11.44) 中 的 logistics Ba RR EX ERUR o 
RBM 隐藏 神经 元 被 激活 的 概率 。 令 xO RAR w 
个 数据 向 量 被 错 制 在 可 见 层 零 时 刻 的 值 。 然 后 
学 习 在 下 面 两 个 操作 之 间 来 回 交替 进行 。 

。 给 定 可 见 状态 ， 并 行 更 新 所 有 隐藏 状态 。 

。 以 相反 方式 做 同样 的 事 时 : 给 定 隐藏 : : 

状态 ， 并 行 更 新 所 有 可 见 状态 。 ew [ | 

S w 是 整个 网 络 的 权 值 向 量 。 相 应 地 ， 我 w 


们 发 现 最 大 似 然 函 数 LCw) 对 应 的 权 值 w; 的 awn [一 
梯度 ，z 是 连接 可 见 单元 ; 和 隐藏 单元 j 的 对 


w 
web MF oS 
隐藏 层 0 
oltw) _ a 一 po， (11.57) me 


Ow; ” 
其 中 pO ApS ARRA Mj 在 零 时 刻 和 omg Cd 
无 穷 远 时 间 的 平均 相关 性 (Hinton Æ, 2006; 
Hinton，2007)。 除 了 不 重要 的 术语 变化 ， 图 11.9 使 用 无 限 深度 的 logistic 信和 度 网 络 自 顶 向 下 学 习 


隐藏 层 
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式 (11. 57) 与 式 (11, 52) 中 Boltzmann 机 的 数学 形式 相同 。 但 是 因为 我 们 不 在 RBM 中 做 类 比 ， 
式 (11.57) 没 有 使 用 温度 作为 参数 。 
深度 信 度 网 络 的 训练 

深度 信 度 网 络 的 训练 在 逐 层 的 基础 上 进行 ， 如 下 (Hinton 等 ，2006; Hinton, 2007): 

1. 受 限 Boltzmann 机 是 直接 在 输入 数据 上 训练 的 ， 所 以 使 RBM 的 隐藏 层 随 机 神经 元 很 有 
可 能 获得 刻画 输入 数据 的 重要 特征 。 所 以 我 们 称 隐 藏 层 为 深度 信 度 网 络 的 第 一 隐藏 层 。 

2. 经 过 训练 的 特征 的 激活 然后 被 作为 “输入 数据 "， 它 被 用 于 第 二 个 RBM 的 训练 。 事 实 
上 ， 刚 描述 的 过 程 可 以 视 为 从 特征 中 学 习 特征 的 过 程 之 一 。 这 个 观点 也 许 最 早 可 以 追溯 到 Sel- 
fridge(1958) 的 一 篇 早期 的 文章 ， 它 提出 了 一 个 称 之 为 “pandeminium” 模 式 识别 系统 。 

3. 这 个 过 程 一 直 持 续 到 深度 信 度 网 络 中 一 些 规定 的 个 数 的 隐藏 层 得 到 训练 。 

这 里 需要 注意 的 重要 特性 就 是 : 每 次 一 个 新 的 特征 层 加 入 到 深度 信和 度 网 络 中 的 时 候 ， 原始 
训练 数据 的 对 数 概率 的 可 变 下 界 就 得 到 改善 ‘Hinton 等 ，2006 ) 。 
产生 模型 

如 图 11. 10 所 示 训 练 一 个 具有 三 个 隐藏 层 的 深度 信和 度 网 络 。 向 上 的 箭头 指示 了 从 特征 中 学 
习 到 的 特征 计算 所 得 的 权 值 。 这 些 权 值 的 功能 是 推理 在 深 隐藏 层 3 
度 信 度 网 络 中 当 一 个 数据 钳制 在 可 见 神经 元 时 隐藏 层 中 的 
二 进 制 特征 值 。 隐藏 层 2 

产生 模型 是 由 图 11. 10 中 的 无 阴影 的 箭头 标识 。 注 意 
产生 模型 不 包括 由 向 上 箭头 代表 的 自 底 向 上 的 连接 ;但 更 隐藏 层 1 
重要 的 ， 它 确实 包括 在 顶层 RBM( 如 层 2 和 层 3) 的 自 底 向 
上 的 连接 ， 这 些 连 接 起 着 双边 联想 记忆 的 双重 作用 。 当 自 


底 向 上 学 习 时 ， 人 顶层 RBM 从 隐藏 层 学 习 。 当 自 上 而 下 学 习 图 11.10 一 个 混合 产生 模型 ， 其 中 最 
顶 的 二 层 是 一 个 受 限 Boltz- 





可 见 层 





时 ， 顶 层 RBM 作为 产生 模型 的 起 始 顺 。 mann 机 ， 底 下 两 层 为 有 向 

如 图 11. 10 所 示 ， 数 据 产生 过 程 如 下 : 异型。 灰色 箭头 不 属于 产生 

1. 通过 使 用 如 图 11. 11 所 示 的 方式 多 次 交替 的 Gibbs 模型 ;它们 用 来 对 绽 定 的 数 

取样 后 ， 可 以 从 顶层 RBM 获得 一 个 平衡 样本 ， 取 样 过 程 可 据 推 理 特 征 数 据 ， 但 是 它们 
不 是 用 来 产生 数据 的 


以 进行 是 够 长 的 时 间 直 到 平衡 。 
2. 从 可 见 顶 层 RBM “可见 ”单元 开始 自 顶 向 下 的 一 次 扫描 用 来 随机 挑 取 网 络 中 所 有 另外 
隐藏 神经 层 的 状态 。 
Ff fra] 2=0 il {=% 





时 间 :=0 t=] t=2 [=a 
图 11.11 一 个 RBM 中 交替 Gibbs 取样 过 程 的 图 例 。 在 足够 多 次 后 ， 当 前 模型 参数 定义 的 静态 分 布 抽 
取 可 见 神经 元 向 量 和 隐藏 神 经 元 向 量 
数据 产生 是 很 慢 的 ， 因 为 ， 首 先 所 有 顶层 RBM 必须 达到 平衡 分 布 。 幸 运 的 是 ,产生 不 是 
供 感 知 推理 或 者 学 习 之 用 。 
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混合 学 习 过 程 
深度 信 度 网 络 中 的 每 个 RMB 将 模型 化 自身 “可 见 ” 数 据 的 任务 分 成 两 个 子 任 务 ， 如 图 
11. 12(Hinton, 2007) 所 示 给 定 权 值 向 量 w 产 生 
。 FES] 机 器 学 习 产 生 权 值 w， 把 具 一 个 隐藏 状态 的 概率 
体 在 隐藏 神经 元 上 的 后 验 分 布 转化 到 在 隐藏 神经 元 上 的 
可 见 神经 元 上 的 对 数据 的 近似 分 布 。 聚集 后 验 分 布 
。 子 任务 2 同样 的 权 值 集合 ， 以 w 表示 ， 
同样 定义 了 隐藏 数据 向 量 上 的 先 验 分 
布 。 对 这 个 先 验 分 布 的 采样 需要 使 用 大 
量 的 Gibbs 取样 (如 图 11. 11 所 示 )。 但 
是 这 恰好 是 此 复杂 的 先 验 概率 的 出 现 方 
式 ， 它 负责 使 RBM 中 的 推理 变 得 如 此 
简单 。 在 子 任务 2 下， 当下 一 个 RBM 学 习 之 后 ， 这 个 特殊 的 RBM 用 一 个 新 的 先 验 概 
率 取 代 了 复杂 的 先 验 概率 (用 w 表示 )， 新 的 先 验 概率 更 好 地 近似 了 低层 RBM 中 的 隐 
茂 神 经 元 的 聚集 的 后 验 分 布 。 
结束 语 
1. 除了 最 项 的 两 层 ， 深 度 信和 度 网 络 是 一 个 多 层 的 logistic 信 度 网 络 ， 其 中 网 络 一 层 和 向 后 
另外 一 层 有 方向 性 连接 。 
2. 学 习 过 程 无 监督 地 逐 层 自 底 而 上 。 由 于 学 习 过 程 以 这 种 方式 进行 ， 感 知 推理 在 深度 信 
度 网 络 中 很 容易 ， 简单 地 说 ， 推 理 过 程 包括 一 个 自 底 而 上 的 传递 。 
3. 深度 信和 度 网 络 为 设计 者 提供 很 大 自由 空间 。 对 设计 者 来 说 如 何 创造 性 地 使 用 这 个 自由 
是 个 挑战 。 


11.10 ”确定 性 退火 


现在 进入 本 章 最 后 一 个 论题 一 一 确定 性 退火 。 在 11.5 节 我 们 讨论 模拟 退火 ， 这 个 随机 松 
弛 技巧 提供 解决 非 凸 优化 问题 的 一 个 强 有 力 方 法 。 但 是 必须 仔细 选择 退火 进度 表 。 特 别 地 ， 只 
有 当 退 火 温度 的 下 降 率 不 比 对 数 更 快 时 ， 全 局 最 小 才能 得 到 保证 。 这 种 要 求 使 得 在 许多 应 用 中 
用 模拟 退火 变 得 不 现实 。 模 拟 退 火 的 运行 是 在 能 量 曲 面 GE) 上 进行 随机 移动 。 相 反 ， 在 确 
定性 退火 时 ， 随 机 性 以 某 种 形式 结合 到 能 量 或 代价 函数 中 ， 因 此 在 一 系列 下 降温 度 情况 下 进行 
确定 性 最 优化 (Rose 等 ，1990; Rose, 1998), 

下 面 我 们 在 无 监督 学 习 任务 MRA) 的 背景 下 ， 倒 述 确定 性 退火 的 思想 。 
通过 确定 性 退火 聚 类 

在 第 5 章 讨论 过 聚 类 的 思想 。 那 里 ， 诊 类 就 是 对 于 给 定 的 数据 分 成 子 组 ， 而 每 块 尽量 相同 
或 者 相似 。 聚 类 是 典型 的 非 凸 优化 问题 ， 因 为 实际 上 用 于 诊 类 的 畸变 函数 都 是 输入 数据 的 非 凸 
函数 (第 10 章 中 描述 的 最 优化 流 形 表示 的 数据 是 个 例外 )。 同 时 畸变 函数 关于 输入 的 曲线 充满 
局 部 最 小 ， 这 使 得 求全 局 最 小 变 得 更 为 困难 。 

在 Rose (1991, 1998) 中 通过 剖 分 的 随机 化 或 等 价 的 编码 规则 的 随机 化 ， 对 聚 类 描绘 一 
个 概率 框架 。 这 里 利用 的 主要 原则 就 是 每 个 数据 点 以 概率 归 为 一 特定 聚 类 OTR). A. 
令 随 机 向 量 X 表 示 源 GRA) 向量, 令 随机 向 量 Y 表示 从 感 兴趣 的 码 本 的 最 优 重 构 (输出 ) 
向 量 。 这 两 个 向 量 的 单独 实现 分 别 记 为 x 和 y。 

对 聚 类 我 们 需要 一 个 时 变 度 量 ， 由 d(x,y) 表 示 。 假 定 4(x,7) 满 足 两 个 希望 的 性 质 : 









子 任务 2 
给 定 隐藏 状态 和 权 值 向 量 w， 
产生 可 见 状态 的 概率 


可 见 神经 元 上 学 习 


了 任务 ! \、 ”得 到 的 数据 分 布 


图 11. 12 将 感知 数据 模型 化 的 任务 分 成 2 个 子 任务 
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CL) 对 任何 x 它 是 y 的 是 函数。 
《2) 当 变 元 x，y 有 限时 ， 它 是 有 限 的 。 
当 上 述 两 个 温和 的 条 件 满足 时 ， 例 如 ， 在 第 5 章 和 第 10 章 使 用 的 欧 几 里 得 平方 畸变 度 
d(x,y) = | x—y|? (11. 58) 
满足 这 种 适度 的 假定 。 对 随机 模式 的 期 望 畸变 定义 为 
D= >) >) P(X =x, Y = y)d(x,y) = DPX = = x) POY =y|X=xd(x,y) (11.59) 


其 中 P(X=x,Y=y)  X=x A Yy 联合 事件 的 概率 。 在 式 (11. 59) 的 第 二 个 等 式 中 ， 利 用 联 
合 事件 概率 公式 ， 








P(X=x,Y=y)= P(Y=y|X= x)P(X =x) (11. 60) 

条 件 概 率 P(Y 一 y|X 一 x) 指 联想 概率 ， 即 码 字 向 量 y 联 想 源 向 量 x 的 概率 。 
传统 上 通过 对 聚 类 模型 的 自由 参数 ， 即 重建 向 量 y 和 联想 概率 PCY 一 y|X=x)， 最 小 
化 期 望 畸 变 D。 这 种 形式 的 最 小 化 产生 “ 硬 ” 育 类 解 ， 人 硬是 指 源 向 量 x 被 归 和 最近 的 码 向 
量 y。 另 一 方面 ， 在 确定 性 退火 中 ， 优 化 问题 被 改变 成 寻找 服从 特定 随机 水 平 概率 分 布 ， 
GABE RMI BIS. (AMIE -TEBRE, RNAP, ELA CS 





A 10.24): 
H(X,Y) =— >) >) P(X = x, Y = y)logP(X = x, Y= y) (11.61) 
期 望 畸变 的 约束 优化 可 以 表示 成 拉 格 朗 日 函数 
F = D—TH (11. 62) 


的 最 小 化 ， 其 中 TARR ART. M11. 62) 我 们 观察 到 : 

。 WAM TE, A RK. 

。 对 小 的 工 值 ， 期 望 畸 变 DARM, TRE GEID REE. 

。 HIPATH, F RMA RIER H 增加 和 期 望 畸 变 D 减少 之 间 的 折 中 。 

最 重要 的 是 ， 比 较 式 (11. 11) 和 式 (11. 62), 我 们 ” 表 11.2 约束 聚 类 和 统计 物理 学 之 间 的 对 应 
可 以 确认 表 11. 2 所 列 的 约束 聚 类 优化 问题 和 统计 力学 

















约束 到 类 优化 统计 物理 学 
之 间 的 对 应 。 根 据 这 种 类 比 ， 我 们 今后 称 T 为 温度 。 拉 格 朗 日 函数 下 自由 能 量 下 

为 了 进一步 了 解 拉 格 朗 日 函数 下 ， 根 据 式 (10. 26), 期 望 畸 变 D 平均 能 其 (E) 
我 们 可 以 将 联合 业 有 H(X,Y) 分 成 如 下 两 项 、 ERKG HH WH 


H(X, Y) = H(X) + H(Y| X) RUSH AEE 7 
其 中 HOO WR, HOY XO AER ERX RRR Y OR. RI HOO RM 
WFR. A, RITT UA NAA A ee F PEHAR HOD, ATR FE 8 AE 
H(Y|X) =— > PK = = x) DUP =y|X=xlogP(Y=y|K=x) (11.63) 
这 样 突出 联想 概率 PCY Sy [x= x) 的 作用 。 因 此 ， 考 虑 到 约束 聚 类 优化 问题 和 统计 物理 学 之 间 
的 对 应 以 及 11. 2 节 描 述 的 最 小 自由 能 量 原理 ， 我 们 发 现 关 于 联想 概率 的 拉 格 朗 日 函数 下 的 最 
小 化 导致 联想 概率 变 为 Gibbs 分 布 
Pl(Y=y|X=x) = 
其 中 Z, 为 当前 问题 的 前 分 函数 ， 定 义 为 : 
Z, = Dexp(— y) (11. 65) 


当 温度 T 接近 无 穷 时 ， 我 们 从 式 (11. 64) 发 现 联想 概率 趋向 于 均匀 分 布 。 这 就 意味 着 当 温 度 相 
当 高 时 ， 每 个 输入 向 量 是 相等 地 联想 起 所 有 聚 类 。 这 种 联想 可 以 被 视 作 “极度 模糊 ”。 在 另 一 


exp( fay) (11. 64) 
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个 极端 ， 当 温度 工 趋 于 零 时 ， 联 想 概率 趋 近 于 delta 函数 。 因 此 ， 当 温度 较 低 时 ， 分 类 是 硬 
的 ， 每 个 输入 样本 以 概率 1 分 给 最 近 的 码 向 量 。 

为 了 寻找 拉 格 朗 日 函数 下 的 最 小 值 ， 我 们 将 式 (11. 64) 的 Gibbs 分 布 代入 式 (11. 59) 和 式 
(11. 63)， 然 后 将 结果 表达 式 应 用 到 式 (11. 62) 的 拉 格 朗 日 算 子 下 的 公式 中 。 这样 导致 的 结果 
为 《参看 习题 11. 16): 

F' = min F=— TŽ PK = wlogZ, (11. 66) 


PUY= ¥(K=x) 
对 剩 下 的 自由 参数 即 码 向 量 y， 最 小 化 拉 格 朗 日 函数 ， RIE F KF y 的 梯度 为 零 。 因 此 ， 
得 到 条 件 


2 PX=xY = Syd y=0, 对 于 所 有 的 yEqm (11. 67) 


UA AR MRA. MAAC. 60) 的 公式 和 对 POX x) 规整 化 ， 可 以 重新 定义 这 个 最 小 
化 条 件 为 : 


OUP = yiX= 0 Saday) = 0, 对 于 所 有 的 yEg (11. 68) 


其 中 联想 概率 、P(Y==y|XX=x)〉 由 式 (11. 64) 的 Gibbs 分 布 定义 。 在 式 (11. 68) 中 仅 为 了 完整 性 
包括 了 比例 因子 1/N， 这 里 N 为 可 用 样本 的 数目 。 
我 们 现在 可 以 描述 聚 类 的 确定 性 退火 算法 〈Rose,1998) : 


算法 包括 两 个 部 分 : 开始 在 温度 人 为 很 高 值 时 对 码 向 量 最 小 化 拉 格 朗 日 函数 下 ， 然 后 在 
降低 温度 工 的 同时 跟踪 最 小 值 。 


换 句 话说 ， 确 定性 退火 运行 时 具有 特定 的 退火 进度 表 ， 温 度 依次 降低 。 对 温度 工 的 每 个 值 ， 
执行 算法 核心 的 两 步 迭 代 可 描述 如 下 : 

1. 固定 码 向 量 ， 利 用 对 于 给 定 畸 变 度量 d(x,y) 的 式 (11. 64) 的 Gibbs 分 布 计算 联想 概率 。 

2. 固定 联想 ， 使 用 式 (11. 68) 对 码 向 量 y 最 优化 畸变 度量 d(x,y)。 

这 个 两 步 迭 代 过 程 对 F* 单调 不 升 ， 因 此 能 保证 收敛 到 一 个 最 小 点 。 当 温度 工 很 高 时 ， 拉 
格 朗 日 算 子 F* 相当 光滑 ， 而 且 在 前 面 对 畸 变 度 量 d(x,y) 的 适度 假设 下 ，F' 是 y 的 凸 函 数 。 
在 温度 较 高 时 可 以 求 得 F"* 的 全 局 极 小 。 随 着 温度 降低 ， 联 想 概率 变 “ 硬 ”"， 导 致 一 个 “人 硬 ” 育 
类 解 。 

当 温 度 工 按 退 火 进度 表 降 低 ， 系 统 经 历 一 系列 相 变 ， 相 变 由 自然 聚 类 分 又 组 成 ， 在 分 又 
处 聚 类 模型 规模 〈 即 聚 类 的 数目 ) 增加 (Rose 等 ，1990;Rose,1991)。 这 种 现象 由 于 以 下 原因 
而 富有 意义 : 

1. 一 系列 相 变 提 供 控制 聚 类 模型 大 小 的 一 个 有 用 工具 。 

2. 正如 通常 的 物理 退火 一 样 ， 相 变 是 确定 性 退火 的 关键 点 ， 此 处 需要 小 心 进 行 退火 。 

3. 关键 点 是 可 计算 的 ， 因 而 提供 用 于 在 两 个 相 变 之 间 加 速算 法 的 信息 。 

4. 最 优 模型 大 小 可 以 确认 ， 通 过 耦合 一 个 确认 过 程 检验 在 不 同 相 位 得 到 的 一 系列 解 ， 这 
些 解 是 表示 模型 规模 〈 即 聚 类 的 数目 ) 逐渐 升 高 的 解 。 
案例 研究 ， 混 合 高 斯 分 布 

图 11. 13 和 图 11. 14 举例 说 明 随 温度 下 降 或 温度 倒数 B= 二 1/T 的 上 升 ， 确 定性 退火 在 不 
同 相 位 时 聚 类 解 的 演化 (Rose，1991)。 产 生 这 些 图 所 使 用 的 数据 集 由 6 个 高 斯 分 布 混合 而 成 ， 
它们 的 中 心 在 图 11. 13 中 都 以 “X” 标 识 。 计 算 所 得 聚 类 的 中 心 都 以 “o” 标 识 。 由 于 聚 类 解 
在 非 零 温 度 不 是 “ 硬 ” 分 类 的 ， 这 个 随机 划分 在 图 中 由 属于 该 聚 类 的 等 概率 一 一 如 概率 为 1/3 
的 围绕 所 描绘 。 这 个 过 程 开 始 只 有 一 个 自然 聚 类 ( 见 图 11. 13a) 包括 所 有 训练 集 。 在 第 一 
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相 变 ， 它 分 裂 成 两 个 聚 类 〈 见 图 11. 13b)， 然 后 经 过 一 系列 相 变 直到 它 达 到 6 个 聚 类 的 自然 
集 。 当 所 有 聚 类 都 分 裂 时 ， 下 一 个 相 变 导致 “爆炸 ”。 图 11. 14 表示 相位 图 ， 显 示 随 退火 过 程 
的 进行 平均 畸变 变量 变化 的 情况 ， 以 及 在 每 个 相 阶 段 ， 自 然 聚 类 的 数目 。 在 这 个 图 中 ,平均 畸 
变 〈 相 对 它 的 最 小 值 规整 化 ) 是 对 温度 工 的 倒数 即 BC 相对 于 它 的 最 小 值 规整 化 Bw) 画 出 的 。 
两 个 坐标 轴 都 是 以 它们 相关 的 对 数 形式 标 出 的 。 
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图 11.13 不 同 相位 的 聚 类 。 画 线 是 等 概率 围 线 ， 在 b) 中 p 二 1/2， 其 余 情况 下 p=1/3. a) 1 
A BOK (B=0); b) 2 个 聚 类 (B=0. 0049); c) 3 PHA (B=0.0056); d 4H 
类 (B=0.0100); e) 5 HA (B=0. 0156); D 6 个 聚 类 (B=0. 0347); g) 19 PR 
类 (B=0. 0605) 


Log (<D>/<D>min ) 











Log [ B/Bpin ] 


图 11.14 ”在 确定 退火 中 混合 高 斯 分 布 样本 的 相位 图 。 对 每 个 相位 显示 有 效率 类 的 数 日 
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11. 11 和 EM 算法 的 类 比 


为 了 说 明确 定性 退火 算法 的 另 一 个 重要 方面 ， 假 设 我 们 将 联想 概率 PCY 一 ?|X=x) 看 成 一 
个 二 值 随机 变量 Vs。 的 期 望 值 ， 其 定义 为 
fl, 如 果 源 向 量 x 被 分 配 到 向 量 y 
Vy = 0， 否则 (11. 69) 
从 这 个 观点 出 发 ， 我 们 认识 到 确定 性 退火 算法 的 两 步 迭 代 是 期 望 最 大 (EM) 算法 的 一 种 形式 。 
为 了 领会 这 个 关联 ， 我 们 将 先 简 单 地 描述 EM 算法 的 基本 理论 。 
EM 算法 
让 向 量 z 代表 缺失 的 或 者 未 观察 的 数据 。 让 r 代表 完整 的 数据 向 量 ， 它 由 一 些 可 观察 的 数 
Hid 和 缺失 的 数据 向 量 z 组 成 。 因 而 考虑 两 个 数据 空间 久 和 鲍 ， 他们 具有 从 久 到 久 的 多 对 一 映 
射 。 我 们 不 能 观察 到 完整 数据 向 量 r， 相 反 实际 仅 能 观察 到 久 中 非 完整 的 数据 4 一 4 。 
S p.(r19) 代 表 在 给 定 参 数 向 量 8 的 情况 下 rr 的 条 件 概率 密度 函数 (pdf)。 那 么 随机 变量 
DD 在 给 定 8 的 情况 下 的 条 件 概率 密度 也 数 可 以 定义 为 
pp(d|10) = J erle)dr (11. 70) 


Hpac eh d=dm REWROTE, EM 算法 的 直接 目的 在 于 找到 0 的 一 个 值 使 得 非 完 
整数 据 的 对 数 似 然 函数 





L(@) = log pp(d]@ 
取得 最 大 。 但 是 ， 这 个 问题 的 解决 是 通过 间接 地 运用 完整 数据 的 对 数 似 然 函 数 
L.(0) = log p. (r| 8) (11.71) 
进行 迭代 来 完成 的 ， 它 是 一 个 随机 变量 ， 因 为 缺失 数据 向 量 z 是 未 知 的 。 
更 确切 地 说 ， 让 和 nn) 代 表 EM 算法 在 迭代 nn 时 参数 向 量 6 的 值 。 在 这 次 迭代 的 巨 步 ， 我 们 
计算 期 望 





Q(0.6(2)) = ELL, (0)] (11. 72) 
其 中 期 望 是 对 6(z) 得 到 的 。 在 同一 的 迭代 的 MH, CBR 〈 权 值 ) 空间 W 中 对 8 最 大 化 RG, 
ÔC) ,这 样 找到 更 新 参数 估计 值 86(n 十 1)， 表 示 为 : 
Ôa +1) = arg maxQ(6,6(7)) (11. 73) 
该 算法 开始 时 参数 向 量 8 KIEA, RARER 72) MAIL. 73) RBA EM 
M #, HS L@@+1) La ZAM PRBER HAMA KN, BRA. 
注意 在 EM 算法 的 一 次 迭代 后 ， 非 完整 数据 对 数 似 然 函 数 不 是 递减 的 ， 表 示 为 : 
LÂ +I SLO), X a= 0,1,2,*…， 
等 号 成 立意 味 着 我 们 处 于 对 数 似 然 函 数 的 稳定 点 。 
关于 退火 的 讨论 ( 续 ) 
回 到 关于 确定 性 退火 和 EM 算法 的 类 比 中 ， 我 们 可 以 得 到 两 个 相关 程度 很 高 的 观察 : 
(i) 在 确定 性 退火 的 第 1 步 中 计算 联想 概率 ， 我 们 有 与 它 等 价 EM 算法 中 的 求 期 望 步骤 。 
Gi) 在 确定 性 退火 的 第 2 步 根据 相应 的 码 向 量 y 来 优化 畸变 变量 4dCx,y)， 我 们 有 与 它 等 
价 的 EM 算法 中 最 大 化 步骤 。 
但 在 进行 这 种 类 比 时 ， 注 意 确定 性 退火 比 最 大 似 然 估计 是 更 一 般 的 。 这 是 因为 与 最 大 似 然 
估计 不 一 样 ， 确 定性 退火 不 对 数据 的 固有 概率 分 布 做 任何 假定 。 事 实 上 ， 联 想 概 率 是 由 最 小 化 
拉 格 朗 日 函数 下" 导出 的 。 
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11.12 小结 和 讨论 


在 本 章 中 我 们 讨论 利用 植 根 于 统计 力学 的 思想 作为 优化 技术 表示 和 机 器 学 习 的 数学 基础 。 

主要 讨论 了 三 种 模拟 算法 : 

1. Metropolis 算法 ， 它 是 Markov chain Monte Carlo (MCMC) 针对 未 知 概率 分 布 上 的 
模拟 。 

2. 模拟 退火 ， 它 是 一 个 动态 的 过 程 ， 就 以 下 而 言 ， 要 研究 系统 的 总 的 特点 在 较 高 温度 下 
观察 到 ， 同 时 系统 的 细节 特征 出 现在 较 低 温度 。 作 为 一 种 优化 算法 ， 模 拟 退 火 能 够 避免 局 部 极 
小 值 。 

3. Gibbs 抽样 ， 它 产生 一 个 带 Gibbs 分 布 作为 平衡 分 布 的 马尔 可 夫 链 。 与 Metropolis 算法 
不 同 ， 与 Gibbs 抽样 器 相关 的 转移 概率 不 是 静态 的 。 

本 章 主 要 介绍 随机 机 器 学 习 ， 主 要 关注 两 点 : 

1. 古典 Boltzmann 机 ， 使 用 隐藏 的 和 可 见 的 随机 二 值 状 态 的 神经 元 ， 它 巧妙 地 利用 Gibbs 
分 布 的 良好 性 质 ， 从 而 具有 一 些 吸 引 人 的 特征 : 

。 通过 训练 神经 元 所 显示 的 概率 分 布 和 环境 相 匹配 。 

。 网 络 提 供 一 种 推广 的 方法 ， 可 用 于 搜索 、 表 示 和 学 习 的 基本 问题 。 

。 如 果 退 火 进度 表 在 学 习 过 程 中 足够 慢 ， 则 网 络 保证 找到 状态 能 量 曲面 的 全 局 最 小 值 。 

遗憾 的 是 Boltzmann 机 需要 很 长 的 时 间 才 能 达到 平衡 分 布 ， 以 至 没有 实用 价值 。 
2. 深度 信 度 网 络 (DBN)， 它 使 用 受 限 Boltzmann 机 (restricted Boltzmann machine, 
RBM) 作为 基本 组 成 。RBM 一 个 突出 的 特点 就 是 隐藏 神经 单元 之 间 没 有 连接 ， 和 否则 与 古典 
Boltzmann 机 一 样 使 用 可 见 神经 单元 和 隐藏 神经 单元 之 间 对 称 连 接 。DBN 同样 建立 在 比较 旧 的 
思想 上 从 特征 中 学 习 : 
。 机 器 在 开始 处 理 阶 段 ， 注 重 未 加 工 的 感官 数据 输入 的 特性 ， 主 要 抓 住 输入 数据 之 间 有 
趣 的 不 规则 性 。 

> 同 对 待 前 一 层 作 为 “新 ”的 未 加 工 的 感官 数据 输入 从 而 学 习 男 一 层 。 

。 不 断 地 这 样 学 习 ， 逐 层 之 后 直到 最 高 层 的 特性 复杂 到 能 够 很 容易 识别 原始 未 加 工 的 感 
官 数据 中 的 感 兴趣 的 部 分 。 

通过 聪明 地 使 用 对 产生 模型 自 顶 而 下 的 学 习 和 对 推理 自 底 而 上 的 学 习 ，DBN 获得 以 一 个 
令 人 印象 深刻 的 精度 学 习 不 带 标签 数字 图 像 的 密度 模型 的 能 力 。 

模拟 退火 的 突出 点 在 于 在 能 量 曲面 上 进行 随机 移动 ， 从 而 使 得 退火 进度 表 非 常 慢 ， 这样 使 
得 在 许多 应 用 中 无 法 实际 使 用 。 相 反 ， 确 定性 退火 将 随机 性 耦合 到 代价 函数 中 ， 从 一 个 较 高 温 
度 开 始 ， 然 后 逐渐 降低 ， 在 每 个 依次 的 温度 对 目标 函数 进行 确定 性 的 优化 。 但 是 ， 注 意 模拟 退 
火 保 证 到 达 全 局 极 小 ， 而 确定 性 退火 还 没有 找到 这 种 保证 。 


注释 和 参考 文献 


1. 在 式 (11. 3) 中 描述 的 术语 “典型 分 布 ”是 由 本 Willard Gibbs (1902) 在 《统计 力学 的 基本 原理 》 第 一 部 分 
33 页 上 创造 的 新 和 名词， 他 写 到 : 


“所 表示 的 分 布 …… 





p= o0( 75) 


看 来 代表 了 最 简单 可 以 想象 的 情况 ， 因 为 当 系统 包括 分 离 能 量 的 部 分 时 ， 它 的 分 布 和 分 离 部 分 的 相位 的 分 
布 律 相 同 ， 其 中 及 和 轨 为 常数 ， 且 百 为 正 。 分 布 的 这 个 性 质 极 大 地 简化 了 讨论 ， 是 和 热力 学 极端 重要 关 


Nm 


Co 
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当 一 个 整体 系统 在 相位 以 刚才 描述 的 方式 分 布 ， 即 当 往 率 (P》 指 标 是 能 量 (Cc) HARSH, ANH 
说 整体 是 典型 分 布 的 ， 称 能 量 的 除数 五 为 分 布 的 模 。 

在 物理 文献 中 ， 式 (11.3) 通 常 称 为 典型 分 布 (Reif，1965) 或 Gibbs 分 布 (Landau and Lifschitz, 
1980) 。 在 神经 网 络 文献 中 称 为 Gibbs 分 布 、Boltzmann 分 布 和 Boltzmann-Gibbs 分 布 。 


. Bernoulli 实验 


考虑 一 个 包含 一 系列 独立 同 分 布 的 过 程 的 实验 一 一 系列 独立 的 实验 。 假 定 每 个 过 程 只 有 两 种 可 能 的 结果 。 
从 而 我 们 可 以 说 这 次 一 系列 Bernoulli 实验 。 例 如 ， 抛 硬币 始终 ， 结 果 只 有 “ 头 ” 和 “ 尾 ”。 


. Metropolis-Hastings 算法 


为 了 最 优化 离散 状态 空间 于 1953 年 引入 了 原始 Metropolis 算法 。 然 后 在 1970 4, Hastings 推广 了 此 算法 ， 
是 为 了 用 于 一 些 非 对 称 转移 概率 的 统计 模拟 。 








TH F Ti 
相应 地 ， 转 移 概率 定义 为 : 
. NTR 
az = min( 1,74 ) 
相应 的 马尔 可 夫 链 仍然 满足 细节 平衡 原理 。 通 过 这 种 方式 推广 得 到 的 Markov chain Monte Carlo 方法 被 称 
为 Metropolis-Hastings 算法 (Robert and Casella，2004)。Metropolis 算法 是 Metropolis-Hastings 算法 中 
Ti = ty MIPIR TE OL o 


. 在 Tu 等 (2005) 中 ,描述 了 一 种 根植 于 贝 叶 斯 理论 的 用 于 图 和 它 的 候选 部 分 的 解析 的 算法 。 这 种 全 息 图 


像 解析 算法 最 优化 了 后 验 分 布 ， 从 而 产生 如 同 在 语音 或 者 自然 语言 中 经 过 一 个 句子 一 样 的 输出 感 兴趣 部 分 
的 表示 。 

算法 的 计算 模块 集成 两 个 流行 的 方法 从 而 推理 : 

。 生成 ( 自 项 向 下 〉 方法， 用 来 形成 后 验 分 布 。 

。 区 分 ( 自 底 向 上 ) 方法 ， 使 用 依 下 列 自 底 向 上 的 过 滤 (测试 ) 来 计算 区 分 概率 。 
在 Tu 等 设计 的 算法 中 ,通过 生成 方法 为 马尔 可 夫 链 来 提供 目标 分 布 来 定义 后 验 概率 ， 间 时 区 分 模型 用 来 
构造 用 于 导出 马尔 可 夫 链 的 后 验 分 布 。 换 句 话 说 ，Markov chain Monte Carlo 方法 是 全 息 图 像 解析 算法 的 
核心 。 


. 引入 温度 和 模拟 退火 到 组 合 优 化 问题 的 想法 是 由 Kirkpatrick, Gelatt and Vacchi (1983) 和 Cerny (1985) 


独立 提出 的 。 

在 物理 环境 中 ， 进 火 是 自然 界 的 一 个 精细 的 过 程 。Kirkpatrick 等 在 1983 的 文章 中 讨论 “熔化 ”一 个 固 
体 的 概念 ， 这 涉及 升 高 温度 到 一 个 最 大 值 使 得 固体 的 所 有 粒子 处 于 液态 时 能 够 随机 地 运动 。 接 着 降低 温度 ， 
使 得 所 有 粒子 调整 到 具有 低能 基态 的 相应 格 点 。 如 果 冷 却 太 快 ， 也 就 是 说 ， 在 每 一 温度 ， 固 体 没有 足够 时 
间 达 到 热平衡 ， 这 样 得 到 的 晶体 会 有 许多 缺陷 ， 或 物质 将 形成 无 曲 体 序 的 玻璃 体 并 且 仅 为 局 部 最 优 结构 的 
亚 稳 态 。 

“熔化 ”这 个 概念 对 于 思考 臻 璃 体 可 能 是 正确 的 方法 ， 或 许 对 考虑 组 合 优化 问题 的 计算 也 有 帮助 。 但 是 
当 讨论 许多 其 他 应 用 领域 时 会 失误 〈Beckerman，1997)。 例 如 ， 在 图 像 处 理 中 ， 如 果 我 们 升 高 温度 使 得 所 
有 粒子 能 够 随机 地 调整 自己 的 位 置 ， 就 会 丢失 图 像 -一 变 成 均匀 灰 度 。 在 相应 的 冶金 学 意义 上 ， 当 退火 铁 
或 铀 时 ， 我 们 必须 保证 退火 温度 低 于 熔点 ; 否则 将 会 毁坏 样本 。 

有 几 个 控制 冶金 退火 重要 的 参数 ; 

。 退火 温度 ， 指 示 金 属 或 合金 加 热 到 什么 温度 ， 

。 退火 时 间 ， 指 定 保持 提高 温度 后 的 时 间 长 度 。 

。 退火 进度 表 ， 指 定 温度 下 降 的 速度 。 

在 描述 退火 进度 表 的 小 节 中 可 以 发 现 ， 这 些 参数 在 模拟 退火 里 能 投 到 和 它们 相对 应 的 部 分 。 





.对 更 复杂 的 和 理论 上 的 退火 进度 表 ， 参看 图 书 Aarts and Korst (1989) 和 van Laarhoven and Aarts (1988), 
. Gibbs 抽样 在 统计 物理 中 称 为 Metropolis 算法 的 “ 热 浴 ”形式 。 自从 在 Geman and Geman (1984) 及 Gel- 


fand and Smith (1990) 的 文献 中 正式 出 现 以 后 ， 它 被 广泛 应 用 于 图 像 处 理 、 神 经 网 络 和 统计 学 。 后 一 篇 文 
章 还 讨论 抽样 (BR Monte Carlo) 的 其 他 方法 ， 这 些 方法 基于 对 边缘 概率 估计 的 数值 计算 。 


.Boltzmann 机 的 可 见 神经 元 可 以 被 分 成 输入 和 输出 神经 元 。 在 第 二 种 结构 中 Boltzmann 机 是 在 教师 监督 下 进 


行 联想 ,输入 神经 元 从 环境 接受 信息 而 输出 神经 元 报告 计算 结果 给 最 终 用 户 。 
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9. 式 (11. 39) 的 表达 式 适 合 于 Boltzmann 机 的 “ 开 ” 和 “ 关 ” 状 态 分 别 用 十 1 和 一 1 表示 。 如 果 机 器 利用 1 和 0 
分 别 表 示 “ 开 ”和 “ 关 ” 状 态 ， 我 们 有 


E(x) 一 一 > denn z; 


10. ERE. xta Kullback-Leibler 散 度 用 作 Boltzmann 机 的 性 能 指标 (Ackley 24,1985; Hinton and Se- 
jnowski,1986)。 这 个 指标 在 第 10 章 讨 论 过 ， 我 们 同样 展示 了 Kullback-Leibler 散 度 的 最 小 化 等 于 最 大 化 似 
然 估计 。 
11. 确定 性 退火 已 成 功 应 用 到 许多 学 习 任 务 : 
。 向 量 量 化 (Rose 等 ,1992;Miller and Rose,1994) 
。 统计 分 类 设计 (Miller 等 ,1996) 
12. Newcomb (1886) 的 文章 考虑 两 个 单 变 元 高 斯 分 布 的 混合 参数 估计 ， 看 起 来 这 是 文献 报告 中 最 早 的 一 个 
EM 类 型 过 程 的 参考 文献 。 
“EM 算法 ”的 名 字 由 Dempster, Laird 和 Rubin 在 他 们 1977 黄 基 性 的 文章 中 创造 的 。 在 那 篇 文章 中 
第 一 次 给 出 不 同 层 次 下 不 完整 数据 中 计算 最 大 似 然 估计 的 EM 算法 的 公式 。 
McLachlan and Krishnan (1997) 以 书 的 形式 第 一 次 统一 考虑 EM 算法 的 理论 、 方 法 和 应 用 它 的 历史 
以 及 推广 。 


习题 


马尔 可 夫 链 
11.1 从 状态 i 到 状态 j 的 n 步 转移 概率 记 为 p89。 利用 归纳 法 证 明 : 


lin 一 (n) 
py" m Dewey 


11.2 图 P11.2 表示 随 机 行走 过 程 的 状态 转移 图 ， 其 中 转移 概率 p 大 于 零 。 图 中 所 示 的 无 限 长 马尔 可 夫 链 是 
不 可 约 吗 ? 说 明 你 回答 的 理由。 


P P P P 
l-p l-p l-p l-p 


图 Pll.2 


11.3 考虑 图 P11. 3 所 描绘 马尔 可 夫 链 ， 它 是 可 约 的 。 找 出 包含 在 这 个 状态 转换 图 中 的 各 个 状态 类 。 
11.4 计算 图 P11.4 所 示 的 马尔 可 夫 链 的 稳定 态 的 概率 。 


1 
4 






1 
4 
图 P11.3 图 P11.4 


11.5 考虑 图 P11.5 所 描绘 马尔 可 夫 链 ， 使 用 这 个 例子 证 明 Chapman-Kolmongorov 的 正确 性 。 
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时 间 0 时 章 n-1 时 间 n 





模拟 技术 
11.6 Metropolis 算法 和 Gibbs 抽样 器 代表 两 类 不 同 的 模拟 大 规模 问题 的 技术 。 讨 论 它 们 之 间 的 基本 相似 点 和 
不 同 点 。 
11.7 本 题 中 考虑 用 模拟 退火 求解 旅行 商 问 题 (traveling salesman problem，TSP)。 条 件 如 下 : 
。 NART. 
。 每 两 个 城市 间距 离 为 do 
。 旅行 路 线 为 一 个 闭合 的 路 径 ， 只 访问 每 个 城市 一 次 。 
日 标 是 寻找 具有 最 小 总 长 度 虐 的 旅行 路 线 ( 即 排列 城市 访问 的 顺序 )。 在 这 个 习题 中 ， 不 同 的 可 能 旅行 
路 线 称 为 构 形 ， 而 需 最 小 化 的 代价 函数 为 旅行 路 线 的 总 长 度 。 
(a) 设计 出 一 种 产生 合法 构 形 的 迭代 方法 。 
O 旅行 路 线 总 长 度 定义 为 





Lp = DY droan 
其 中 P 表示 一 个 置换 是 PCN 二 1) 王 P(1)。 因 此 ， 谢 分 函数 为 
z= Deer 
其 中 了 为 控制 参数 。 建 立 用 于 TSP 的 模拟 退火 算法 。 
Boltzmann 机 
11.8 考虑 一 个 在 温度 工 运行 的 随机 二 值 神经 元 。 它 从 状态 2, 翻转 到 状态 一 x; 的 概率 为 


l 
1 + exp(— AE, /T) 


其 中 AE, 为 翻转 所 导致 的 能 量 改变 。Boltzmann 机 的 总 能 量 定 义 为 
五 一 一 + 2 Dwnrir 


其 中 wy 为 从 神经 元 i 到 神经 元 7 AAU, AL wy = wy 和 wi 二 0。 
(a) 证 明 











Pz, >— 7x;) 


AE, 一 一 27x;v; 
其 中 y 为 神经 元 7 的 诱导 局 部 域 。 
Cb) 因此 ， 证 明神 经 元 ;从 初 态 zi 一 一 1 翻转 到 xz, 二 十 1 的 概率 为 1/ (1 十 exp( 一 2v;/T))。 
(c) 证 明 当 神 经 元 j 从 初 态 为 十 1 翻转 到 状态 一 1 Ob) 中 的 公式 仍然 正确 。 
11.9 ”推导 式 (11. 49) 中 对 数 似 然 函 数 LW) EF Boltzmann 机 突 触 权 值 wi 的 导数 公式 。 
11.10 Gibbs 分 布 可 以 利用 和 白 完 备 的 数学 方法 推导 出 ， 而 不 依赖 于 统计 物理 的 概念 。 特 别 地 ， 一 个 两 步 马 尔 
可 夫 链 模型 的 随机 机 器 可 用 来 导出 形成 Boltzmann 机 特殊 性 质 的 假设 《Mazaika,1987)， 这 一 点 也 不 令 
人 惊奇， 因为 作为 Boltzmann 机 运行 的 模拟 退火 本 身 具有 马尔 可 夫 性 质 (van Laarhoven and Aarts, 
1988). 
考虑 在 一 个 随机 机 器 中 神经 元 的 状态 转移 模型 由 两 个 随机 过 程 组 成 : 
。 第 一 个 过 程 决定 尝试 哪个 状态 转移 。 
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11. 11 


11.12 


。 第 二 个 过 程 决 定 这 次 转移 是 否 成 功 。 
(a) 表示 状态 转移 概率 pj 为 两 个 因子 的 乘积 ， 即 
Pe 5 taqi 当 j¥i 


证 明 
pi=1— Drg 
Cb) 假设 党 试 率 矩阵 是 对 称 的 ， 
并 且 假 设 尝试 成 功 的 概率 满足 互补 条 件 转移 概率 的 性 质 ， 
qi = l— gs 


使 用 这 两 个 假设 证 明 
Zr gs Tw 二 qni—xi)=0 
Co) 假定 zw 天 0， 利 用 问题 Ca) 中 的 结果 证 明 ， 


1 
9 TF Ge / a) 
(d) 最 后 ， 进 行 变量 变换 : 
E; =— T log n + T* 
其 中 人 下 和 了 "为 任意 常数 。 由 此 推导 ， 其 中 AESE E: 


C1) n= ep 一 全 


cii) Z= Dex(-#) 


Ci? a =T AED 
Ce) 你 能 从 这 些 结果 中 得 出 什么 结论 ? 
在 11. 7 节 我 们 利用 最 大 似 然 函数 作为 推导 式 (11.53) 所 描述 的 Boltzmann 学 习 规 则 的 准则 。 在 这 个 习 
题 中 我 们 利用 其 他 准则 重新 考虑 这 个 学 习 规 则 。 由 第 10 章 的 讨论 ， 两 个 概率 pe Alp, 的 Kullback- 
Leibler 散 度 定义 为 : 





Dy to = Doe: lor( 2) 

其 中 对 所 有 可 能 的 状态 a 求 和 。 概 率 加 表示 网 络 在 钳制 〈 正 向 ) 状态 时 可 见 神经 元 处 于 状态 a 的 概 
Z, MAp 表示 网 络 在 自由 运行 ( 负 向 〉 状 态 时 可 见 神经 元 处 于 状态 a 的 概率 。 利 用 D+ 1 。- 的 上 述 
定义 重新 推导 式 (11. 53) 中 的 Boltzmann 学 习 规 则 。 
考虑 Boltzmann 机 的 可 见 神经 元 分 成 输入 神经 元 和 输出 神经 元 。 这 些 神经 元 的 状态 分 别 表示 为 a Aly 
隐藏 神经 元 状态 记 为 $8。 这 个 机 器 的 Kullback-Leibler 散 度 定义 为 : 

Dy ie = 2p! Di phaloe( 22) 
其 中 pt 为 输入 神经 元 在 状态 a EE, pf) AR RMARA < 输出 神经 元 被 钳制 在 状态 y 的 条 件 概 
率 ，p7, 为 仅 输 入 神经 被 钳制 在 状态 a 时 处 于 热平衡 中 的 输出 神经 元 状态 为 7 的 条 件 概率 。 和 前 面 一 
样 ， 加 号 和 减 号 上 标 分 别 表示 正 向 (钳制 ) 和 人 负 向 “自由 运行 ) 条件。 
Ca) 对 输入 、 隐 藏 和 输出 神经 元 的 Boltzmann 机 导出 公式 Do+ lo- 。 
(b) 对 于 这 种 网 络 配 置 经 过 重新 解释 相关 性 pf). Al Py.) WEI E RA wy A Boltzmann 学 习 规 

则 仍 可 以 被 表示 成 和 式 (11. 53) 同 样 的 形式 。 





深度 信 度 网 络 


11.13 
11.14 


在 学 习 了 深度 信 度 网 络 和 logistic FEMA. MM EM SIM MRR IE? 并 解释 你 的 答案 。 
请 说 明 如 图 11. 9 所 示 的 无 限 的 logistic 信 度 网 络 和 图 11. 8 所 示 的 单个 RBM 是 等 价 的 。 


确定 性 退火 


11.15 


在 11.10 节 中 我 们 利用 信息 论 方法 讨论 确定 性 退火 的 思想 。 确 定性 退火 的 思想 也 可 以 基于 第 10 章 讨 
论 的 最 大 箭 原理 用 原理 化 的 方式 产生 。 说 明 第 二 种 方法 的 基本 原理 〈Rose，1998) 。 


11. 16 


11.17 


11.18 
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(a) 利用 式 (11. 59)， 式 (11. 64) 和 式 (11. 63)， 推 导 式 (11. 66) 所 给 出 的 拉 格 朗 日 函数 下 * 的 结果 ， 该 
结果 是 用 联想 概率 的 Gibbs 分 布 得 到 的 。 
(b) 利用 本 题 中 (a) 的 结果 ， 导 出 式 (11. 68) 给 出 的 FF* 关于 码 向 量 y 取 最 小 值 的 条 件 。 
Cc) 应 用 式 (11. 68) 的 最 小 化 条 件 到 式 (11. 58) 的 平方 畸变 度量 ,评论 你 的 结果 。 
考 屿 数据 集 为 混合 高 斯 分 布 ， 在 这 种 情况 下 ， 怎 样 才 能 使 得 利用 确定 性 退火 比 利 用 最 大 似 然 估计 有 优 
越 性 ? 
在 本 题 中 我 们 探讨 基于 神经 网 络 的 模型 分 类 中 确定 性 退火 的 应 用 (Miller 等 ，1996) 。 输 出 层 的 神经 元 
5 了 的 输出 记 为 F(x)， 其 中 x 为 输入 向 量 。 分 类 决策 是 基于 最 大 判别 式 Fj (x)。 
(a) 对 于 概率 目标 函数 ， 考 虑 
1 


F= 2 Pa ERDF 
aE j 


其 中 9 为 带 标 号 向 量 的 训练 集 ，x 表示 输入 向 量 ，% 为 它 的 类 别 标识 ，P(xE RMA LEE x 和 类 
BRR. 的 联想 概率 。 利 用 第 10 章 讨论 的 最 大 精 原 理 ， 写 出 POKER, ) 的 Gibbs 分 布 。 

(b) 令 〈P.》 表 示 错 分 类 代价 的 均值 。 写 出 在 联想 概率 POE RO HO HE — AEA H 的 约束 下 最 小 化 
4P,) 的 拉 格 朗 日 方程 。 
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动态 规划 


本 章 组 织 

本 章 有 三 个 目的 : Ci) 讨论 动态 规划 作为 多 级 动作 规划 的 数学 基础 的 发 展 ， 多 级 动作 规 
划 是 通过 一 个 智能 体 (agent) 在 随机 环境 中 运行 来 实现 的 ; (C1) 给 出 作为 动态 规划 逼近 形式 
We DMRS Cll) 给 出 处 理 维 数 灾 带 近 动 态 规 划 的 非 直接 方法 。 
本 章 组 织 如 下 : 
12.1 节 是 引言 章节 ， 通 过 12.2 节 中 讨论 的 马尔 可 夫 决 策 过程 ， 激 发 了 对 动态 规划 的 研究 。 
12. 3 节 到 12. 5 节 讨 论 动态 规划 的 Bellman 理论 以 及 两 个 相关 的 方法 : 策略 迭代 和 值 迭 代 。 
12.6 节 讨 论 动态 规划 基于 直接 学 习 通 近 后 的 理论 基础 ， 因 而 导致 了 时 序 差分 学 习 和 Q -学 
它们 将 分 别 在 12.7 和 12.8 节 中 讨论 。 
12. 9 节 讲 述 处 理 维 数 灾 问 题 的 动态 规划 的 非 直接 还 近 的 理论 基础 ， 因 而 导致 最 小 二 乘 策 
略 评估 和 逼近 值 迁 代 的 讨论 ， 这 将 在 12. 10 节 和 12.11 节 中 分 别 讨论 。 

最 后 是 12. 12 节 的 小 结 和 讨论 。 


12. 1 引言 


在 本 节 中 ， 我 们 认识 到 学 习 的 两 种 主要 范例 : 有 教师 学 习 和 无 教师 学 习 。 无 教师 学 习 的 范 
例 又 可 以 细 分 为 自 组 织 〈 无 监督 ) 学 习 和 强化 (reinforcement) 学 习 。 第 1 章 到 第 6 章 讨论 了 
有 教师 学 习 或 监督 学 习 的 不 同形 式 ， 第 9 章 到 第 11 章 讨 论 了 非 监 督学 习 的 不 同形 式 。 第 7 章 
中 讨论 了 半 监 督学 习 。 本 章 将 讨论 强化 学 习 。 

监督 学 习 是 在 “教师 ”教导 下 进行 的 “ 认 知 ”学 习 问 题 : 它 依赖 于 一 组 恰当 输入 -输出 样 
本 的 可 用 性 ， 这 些 样本 能 够 反映 运行 环境 。 与 此 相反 ， 强 化 学 习 是 一 种 “行为 ”学 习 问 题 : 通 
过 学 习 系统 和 环境 的 交互 作用 完成 任务 ， 尽 管 存在 不 确定 性 ， 但 学 习 系统 仍然 希望 在 环境 中 达 
到 特定 目标 (Barto 等 ，1983; Sutton and Barto，1998) 。 无 教师 情况 下 进行 的 交互 使 得 强化 
学 习 特 别 适合 代价 很 高 或 很 难 〈 如 果 不 是 不 可 能 ) 找到 一 组 满意 的 输入 -输出 样本 的 动态 情况 。 

有 两 种 途径 研究 强化 学 习 : ， 概 述 如 下 : 

1. 传统 方法 。 通 过 惩罚 和 奖励 的 过 程 进行 学 习 以 期 达到 高 度 熟 练 行为 的 目标 。 

2. 现代 方法 。 它 基于 称 为 动态 规划 的 一 种 数学 方法 ， 通 过 考虑 将 来 可 能 的 但 实际 并 未 发 
生 的 阶段 而 决定 一 系列 的 行动 ; 这 里 强调 的 是 规划 (planning) 。 

我 们 讨论 的 重点 是 现代 强化 学 习 。 

动态 规划 (dynamic programming)’ 技 术 处 理 的 是 这 样 一 种 情况 : 分 阶段 做 决策 ， 在 做 下 
一 个 决策 之 前 在 某 种 程度 上 能 够 预测 每 个 决策 的 结果 。 这 种 情况 的 一 个 关键 方面 是 不 能 孤立 地 
做 出 决策 。 相 反 ， 现 在 对 低 代价 的 希望 必须 被 将 来 高 代价 的 失望 所 抵消 。 这 是 一 个 信任 赋值 
(credit assignment) 问题 ， 因为 信任 或 责任 必须 赋值 给 一 组 相互 作用 的 决策 中 的 每 一 个 决策 。 
为 了 最 优 的 规划 ， 需 要 在 眼前 代价 和 将 来 代价 中 取得 有 效 的 折 中 。 这 种 折 中 确实 被 动态 规划 的 
形式 抓 住 。 特 别 地 ， 动 态 规划 解决 下 面 的 一 个 基本 问题 : 


当 可 能 需要 牺牲 短期 性 能 的 情况 下 ， 系 统 主体 或 决策 者 怎样 在 随机 环境 中 学 习 而 提高 其 长 
期 性 能 的 ? 





习 


~- 
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Bellman 动态 规划 为 这 一 基础 问题 提供 了 一 个 好 的 原则 方式 的 最 优 解 。 

在 数学 模型 建立 时 的 挑战 在 于 在 两 个 实体 之 间 达 到 正确 的 平衡 ， 一 个 是 实际 的 ， 另 一 个 是 
理论 上 的 。 这 两 个 实体 分 别 是 ， 

。 给 定 问题 的 实际 描述 

。 作用 于 这 一 问题 的 分 析 和 计算 方法 的 能 力 

在 动态 规划 中 ， 特 别 关 心 的 问题 是 在 随机 环境 中 运行 的 学 习 主体 的 决策 。 为 了 说 明 这 一 
问题 ， 我 们 围绕 马尔 可 夫 决 策 过 程 来 建立 模型 。 给 定 动态 系统 的 初始 状态 ， 马 尔 可 夫 决 策 过 
程 为 选择 决策 序列 提供 数学 基础 ， 这 将 最 大 化 从 N -阶段 决策 过 程 的 返回 值 。 我 们 刚刚 讲述 
的 是 Bellman 动态 规划 的 本 质 。 因 而 从 马尔 可 夫 决 策 过 程 的 讨论 来 开始 动态 规划 的 学 习 是 合 
适 的 。 
12.2 马尔 可 夫 决 策 过 程 _ 


考虑 一 个 学 习 系 统 或 智能 体 (agent) MARA (decision maker) 以 图 12. 1 的 方式 和 环境 

相互 作用 。 系 统 依照 一 个 有 限 的 离散 时 间 马 尔 可 夫 决 策 过 程 运行 ， 这 状态 
个 马尔 可 夫 决 策 过 程 有 以 下 特性 : 

。 环境 依 概 率 以 一 组 有 限 的 离散 状态 来 演化 。 但 是 注意 状态 并 不 包 

含 过 去 的 统计 特性 ， 尽 管 过 去 的 统计 特性 对 学 习 系统 是 有 用 的 。 | 











。 对 于 每 一 个 环境 状态 ， 学 习 系统 可 以 采取 一 组 有 限 的 可 能 行动 。 行为 
+ 每 当 学 习 系统 采取 一 次 行动 ， 就 会 引起 一 定 的 代价 。 wins seem 
。 观察 状态 、 采 取 行 动 和 引发 代价 都 是 在 离散 的 时 间 里 发 生 的 。 交互 的 框图 


在 当前 讨论 的 背景 下 ， 我 们 引入 如 下 的 定义 : 


环境 的 状态 定义 为 学 习 系 统 从 它 和 环境 交互 中 获得 的 过 去 全 部 经 历 的 总 和 ， 它 包含 学 习 系 
统 预 测 环 境 未 来 行为 所 必需 的 信息 。 


设 表 示 在 时 间 步 n 的 状态 的 随机 变量 为 X,， 在 时 间 步 n 的 实际 状态 为 i,。 有 限 个 状态 的 
集合 用 X 表示。 动态 规划 令 人 惊奇 的 一 个 特点 是 它 的 适用 性 很 少 依赖 状态 的 性 质 。 因 此 可 以 
不 对 状态 空间 结构 做 任何 假设 而 进行 。 还 要 注意 的 是 动态 规划 算法 的 复杂 度 是 对 状态 空间 的 维 
数 二 次 的 并 对 行为 空间 的 维 数 是 线性 的 。 

例如 ， 对 于 状态 ;， 一 组 可 采取 的 行为 〈 即 学 习 系 统 作 用 于 环境 的 输入 ) 设 为 4; 二 {an}， 
这 里 的 学 习 系 统 采取 的 行动 ax 的 第 二 个 下 标 k 仅仅 说 明 当 环境 在 状态 ; 时 ， 可 以 有 不 止 一 个 可 
能 的 行动 。 例 如 ， 采 取 行 动 ax 将 环境 状态 从 ; 变化 到 7 状态 本 质 上 为 概率 性 的 。 然 而 ， 最 重要 
的 是 ， 从 状态 i 到 状态 j 的 转移 概率 完全 依赖 于 当前 状态 i 和 相应 的 行动 ae 。 这 就 是 第 11 章 
中 讨论 的 马尔 可 夫 性 质 。 这 个 性 质 是 很 关键 的 ， 因 为 它 意味 着 环境 的 当前 状态 为 学 习 系 统 提供 
必需 的 信息 以 决定 采取 什么 行动 。 

用 一 个 随机 变量 A, 表示 学 习 系 统 在 时 间 步 ”时 采取 的 行动 。 用 pj; (a) 表 示 在 时 间 步 n 时 
由 于 采取 行动 a 而 导致 从 i 状态 转移 到 /7 状态 的 转移 概率 ， 其 中 4.=a。 由 状态 动力 学 的 马尔 
可 夫 假 设 有 


py (a) = P(X = j|X, = i,A, = a) (12. 1) 
由 概率 论 ， 转移 概率 ps (a) 必 须 满 足以 下 两 个 条 件 : 

1. pala) >0 对 于 所 有 i 和 j (12. 2) 

2. >) ps (a) 一 1 对 于 所 有 i  - (12. 3) 


其 中 i 和 j 属于 状态 空间 。 
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对 于 给 定数 目的 状态 和 转移 概率 ， 学 习 系 统 随时 间 采 取 行 动产 生 的 环境 状态 序列 形成 一 个 
马尔 可 夫 链 。 我 们 在 第 11 章 已 经 讨论 过 马尔 可 夫 链 。 

当 从 一 个 状态 转移 到 另 一 个 状态 时 ， 学 习 系 统 招致 一 个 代价 。 因 此 在 行动 由 作用 下 产生 的 
从 状态 :到 状态 7 的 第 步 转移 ， 学 习 系统 招 致 的 代价 表示 为 Yg (i,as ,j)， 这 里 的 g(，,，，,，，) 
是 一 个 规定 的 函数 ，y 是 折扣 因子 (discount factor), O<y<1, HAWK y， 可 以 控制 学 习 系 统 对 它 
自己 行动 的 短期 和 长 期 结果 考虑 的 程度 。 在 极端 情况 下 ， 当 > 一 0 时 系统 是 短视 的 〈myopic) ， 它 只 
考虑 它 的 行动 的 当前 结果 。 以 后 将 忽略 这 种 极端 值 ， 也 就 是 限于 讨论 0<y<1。 当 > 接近 1 时， 未 
来 的 代价 在 采取 最 优 行动 时 变 得 更 为 重要 。 

我 们 的 兴趣 在 于 形成 一 种 策略 〈policy)， 这 里 策略 指 的 是 状态 到 行动 的 映射 。 换 句 话说 ; 


给 出 环境 当前 状态 的 知识 ， 一 个 策略 是 学 习 系 统 决定 做 什么 所 使 用 的 一 个 规则 。 
策略 表示 为 | 
z = {po spa spare} (12. 4) 

其 中 心 指 的 是 在 时 间 步 n=0,1,2,0, RA XX 二 i AGF HA, =a 的 映射 。 这 个 映射 满足 

woes 对 于 所 有 状态 工 E8 

EEA 表示 在 状态 i 时 学 习 系 统 能 够 采取 的 行动 集合 。 这 样 的 策略 是 允许 的 。 

策略 可 以 是 不 稳定 的 或 稳定 的 。 不 稳定 的 (nonstationary) 策略 是 随时 间 变 化 的 ， 正 如 式 
(12. 4) 所 示 。 但 当 策 略 不 随时 间 变 化 时 ， 即 

x = (urpu } 
就 说 策略 是 稳定 的 〈stationary) 。 换 句 话 说， 稳定 的 策略 每 次 遇 到 一 个 特定 的 状态 时 采取 相同 
的 行动 。 对 于 稳定 的 策略 ， 固 有 的 马尔 可 夫 链 既 可 以 是 不 平稳 的 也 可 以 是 平稳 的 。 在 不 平稳 的 
马尔 可 夫 链 上 也 可 使 用 稳定 的 策略 ， 但 这 是 不 太 明 智 的 。 如 果 使 用 稳定 的 策略 nx， 那么 状态 序 
列 {X,.n=0.1,2,-°} 形成 一 马尔 可 夫 链 ， 其 转移 概率 为 py (eG) ,pb 让 表示 一 个 行动 。 由 于 
这 个 原因 该 过 程 称 为 马尔 可 夫 决 策 过 程 。 
基本 问题 

动态 规划 问题 分 为 有 限 范围 和 无 限 范围 两 种 。 有 限 范围 Cfinite-horizon) 问题 中 在 有 限 的 
阶段 内 对 代价 累积 。 无 限 范围 Cinfinite-horizon) 问题 中 在 无 限 的 阶段 内 对 代价 累积 。 无 限 范 
围 问 题 为 有 限 范 围 但 数目 非常 大 的 问题 提供 一 个 合理 的 逼近 。 因 为 折扣 保证 对 于 任何 策略 所 有 
状态 的 代价 都 是 有 限 的 ， 这 样 无 限 范围 问题 有 着 特殊 的 应 用 。 

A g(X, ,po(X,) ,XX,+1) 记 在 策略 y, (X,) 的 行动 下 从 状态 X, 转移 到 和 X,+i 的 结果 所 发 生 的 
观测 代价 。 在 无 限 范围 问题 中 ， 从 初始 状态 X =i 开始 并 使 用 策略 x 二 {x)， 总 的 期 望 代价 定 
义 为 

FO = EL DVEX sp Xe) Xen) | = i| (12.5) 


其 中 期 望 值 是 对 马尔 可 夫 链 (XX) B, y BIAS. KAA Ii) YE x 从 状态 
i 开始 的 cost-to-go 函数 。 它 的 最 优 值 记 为 J* (i)， 定 义 为 : 
J G) = minJ* (7) (12. 6) 

当 且 仅 当 x 对 "(让 是 贪 整 的 (greedy) 时 ， 策 略 < 是 最 优 的 。 这 里 术语 “ 贪 禁 ”被 用 来 描述 
这 样 的 情形 : 当 智 能 体 寻 找 最 小 化 下 一 个 瞬时 代价 时 不 注意 这 样 的 行动 的 话 可 能 废除 将 来 更 好 
的 途径 。 

当 策略 x 稳定 时 ， 即 x 二 {4,4，…}， 我 们 用 符号 ORE J (i)， 并 当下 列 条 件 成 立时 
W u ERER: 
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JO =J D ”对 于 所 有 初始 状态 i (12.7) 
动态 规划 的 基本 问题 可 以 总 结 如 下 : 


给 定 描述 学 习 系 统 和 环境 相互 作用 的 稳定 马尔 可 夫 决 策 过 程 ， 找 到 一 个 稳定 的 策略 = 
(usps te SAR IT A Ay i HB KAS i 有 最 小 的 cost-to-go 函数 JG). 

注意 ， 在 学 习 过 程 中 ， 学 习 系 统 的 行为 可 以 随时 间 改 变 。 但 是 学 习 系 统 寻 找 的 最 优 策 略 是 
稳定 的 。 
12.3 Bellman 最 优 准则 


动态 规划 技术 依赖 归功 于 Bellman (1957) 的 通称 为 最 优 原则 (principle of optimality) 的 
非常 简单 的 思想 。 这 个 原则 可 简单 陈述 为 〈《Bellman and Dreyfus, 1962): 


一 个 最 优 策略 有 这 样 的 性 质 ， 无 论 初 始 状态 和 初始 决策 是 什么 ， 对 于 第 一 个 决策 所 导致 的 
状态 ， 剩 余 决 策 必 须 成 为 最 优 策略 。 


正如 这 里 使 用 的 那样 ， 决 策 (decision) 是 在 特定 时 间 的 一 种 控制 选择 ， 策 略 〈policy) 是 


整个 控制 序列 或 控制 函数 。 
为 用 数学 公式 表示 最 优 原 则 ， 考 虑 一 个 有 限 范围 问题 ， 它 的 cost-to-go 函数 定义 为 
Jo (Xo) = H| gx (Xx) + Be, Xnr (Xa) Xma) | (12. 8) 


其 中 K 是 规划 范围 (planning horizon) 【〔 即 阶段 数目 )，gx Xo BRAK. BE X。， 
式 (12. 8) 中 的 期 望 值 是 对 剩余 状态 Xi Xe RH. 现在 可 以 正式 陈述 最 优 原 则 如 下 
(Bertsekas, 2005, 2007): 


An = (po sph pe ABA RB 问题 的 最 优 策略 。 假 设 使 用 最 优 策略 aH, 
给 定 的 状态 X, 发 生 的 概率 为 正 。 考 虑 当 环 境 在 时 刻 风 时 状态 为 X。 的 子 问题 ,假设 我 们 希望 
最 小 化 对 应 的 cost-to-go AA 


J (Xs) 一 gx (Xa) 十 Dg Xo XD Xen) | (12. 9) 
其 中 n=0,1,…,K—1。 这 时 截断 策略 {px pp 1) 对 于 子 问题 是 最 优 的 。 


通过 下 面 的 讨论 ， 我 们 可 以 直观 地 说 明 最 优 原则 的 合理 性 : 如 果 截 断 策略 pets pene ot 
uia) 不 是 如 陈述 的 那样 为 最 优 ， 那 和 一 旦 在 二 时 刻 到 达 X, 状态 ， 通 过 简单 转换 到 对 于 子 问 
题 最 优 的 策略 ， 我 们 可 以 减少 cost-to-go 函数 Ja Xa). 

最 优 原则 基于 分 而 治之 (divide and conquer) 的 工程 概念 。 基本 上 ， 一 个 复杂 的 多 阶段 规 
划 或 控制 问题 的 最 优 策略 ， 可 通过 以 下 处 理 构 造 : 

1. 构造 一 个 仅 包含 系统 最 后 一 个 阶段 的 “ 屁 部 子 间 题 ”(tail subproblem) 的 最 优 策略 。 

2. 扩展 最 优 策略 至 包含 系统 最 后 两 个 阶段 的 “尾部 子 问题 ”。 

3. 以 这 种 方式 继续 这 种 过 程 ， 直 到 处 理 完整 个 问题 。 
动态 规划 算法 

在 前 面 描述 过 程 的 基础 上 ， 我 们 可 以 提出 动态 规划 算法 ， 它 从 时 期 N 一 1 到 时 期 0 反 向 处 
H, S n= (pooper syx-1) 表 示人 允许 策略 。 对 每 一 个 n=O,l ee, K—1, 令 = (parents? 
uil & Ji CX) aR MA AL n HRS X., 开始 到 时 间 天 A (K-n) 阶段 问题 的 最 优 代 
ot; 即 
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K-1 


Ji (Xa) = min y Ex TeX + Pe Koa K Xen) | (12. 10) 
x k=n 


nt PARA] 


它 表 示 式 (12. 9) 的 最 优 形式 。 考 虑 到 x' 三 (yy,x”*!) 和 部 分 展开 式 (12. 10) 的 右边 和 ， 我 们 可 以 

写成 ， 

Ji (X) = min E [e (Xap (Xe) Ka) + Bie Xa) + D) Be Xi ope (Xe) Xen) | 
k=ntl 


atl, (Xt X 
(gy) TR 





I 


K- 
min E Ea Ka spa (Xa) Xm) + min, E | gx (Xn) + Dy eX sy (Xa) Xen) | ) 





XX, ) 
= min E Lg, X, pa Xa) Kn) + Iori Xan) ] (12.11) 
在 最 后 一 行 ， 使 用 了 式 (12. 10) 的 定义 ， 以 n 十 1 代替 2。 相应 地 ， 从 式 (12. 11) 可 以 导出 : 
Ja (Xa) 一 min E [gn Xn spn Xn) Kun) F Jan Xm) ] (12. 12) 


现在 可 以 正式 陈述 动态 规划 算法 如 下 (Bertsekas, 2005, 2007): 


对 每 一 个 初始 状态 四， 基本 有 限 范围 问题 的 最 优 代 价 I KOFTA), PAX Io 
从 下 面 算法 的 最 后 一 步 得 到 ; 
J.(X,) = min KE [en (X, sla Xa) s Xn) F Jaen (Xam) J (12. 13) 
按时 间 反 向 运行 ， 且 
| Jx (XK) = gr (Xx) (12. 14) 
Rob, Bpl 使 得 式 (12.13) 的 右边 对 于 任意 n HX, ABD, MAR BW 二 {pe sei spk) 
是 最 优 的 。 


Bellman 最 优 性 方程 

以 其 基本 形式 ,动态 规划 算法 处 理 有 限 范围 问题 。 我 们 感 兴 趣 的 是 推广 这 个 算法 的 用 途 ， 
即 处 理 在 稳定 策略 r= {puu ATF, RA. 5) 的 cost-to-go 函数 所 描述 的 无 限 范围 折扣 
问题 。 为 了 达到 这 一 点 ， 我 们 做 下 面 两 件 事 : 

1. 反 转 算法 的 时 间 索 引 。 

2. 定义 代价 gn (Xn CX) Xap MF : 


En CK sp CX) Xa) = Wg Kroy KX) Xa) (12. 15) 
现在 可 以 重新 定义 动态 规划 算法 如 下 : 
Jma (Xo) = min Fle (Xo sp( Xo) X) + y] .(X1)] (12. 16) 


它 从 初始 条 件 
Jo(X) 一 0， 对 于 所 有 XX 
开始 ， 状 态 X EWERS, X 是 策略 a 的 行动 导致 的 新 状态 ，7 是 折扣 因子 。 
令 J "(四 表示 对 初始 状态 X =i 的 最 优 无 限 范围 的 代价 。 我 们 可 以 把 J" OBE WH K 
阶段 最 优 代 价 Jrx (GD 当天 趋 于 无 穷 大 时 的 极限 ， 即 
J*G) = limJx (i), 对 于 所 有 i (12.17) 
这 个 关系 联系 着 有 限 范围 和 无 限 范围 之 间 的 折扣 问题 。 在 式 (12. 16) 中 ， 置 2 十 1 二 并，Xo 一 刘 
并 应 用 式 (12.17) ， 我 们 得 到 
J (i) 一 min ELgCi,p(i) X) + YJ * (X1)] (12. 18) 
为 了 重 写 最 优 无 限 范围 代价 J (i) 的 公式 ， 按 下 面 两 个 阶段 进行 处 理 。 
1. 计算 代价 eG.) XOX Xi 的 期 望 值 : 
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ETg(i) pG), X] = Me g Cispli) sj) (12. 19) 


其 中 N 是 环境 状态 的 数目 ，z 是 初始 状态 和。 一 : 到 新 状态 X, 一 / 的 转移 概率 。 式 (12. 19) 定 义 
的 量 是 在 状态 X =i 使 用 策略 w 建议 的 行动 引起 的 瞬时 期 望 代 价 。 利 用 c(Gi,w(i) 表 示 这 个 代 
价 ， 可 以 写 为 ， 


2. 计算 J XOR Xi 的 期 望 值 。 注意， 如 果 知 道 有 限 状态 系统 的 每 一 个 状态 Xi 的 代价 
J* (Xi )， 贝 SD AES EA SES 2-8] SE ee ES (Xi) 的 期 望 值 如 下 : 
ELI (X,)] = Dp IG (12. 21) 


这 样 ， 将 式 (12. 19) BR C12. 21) 代 人 式 (12. 18), “得 到 期 望 的 结果 
(i) = min(e Grp) + 7D) pa GOT" D) HE=1,2,-5N (12. 22) 

xh (12. 22) 叫 做 Bellman 最 优 性 方程 。 它 不 应 该 该 被 看 作 算法 。 相 反 ， 它 表示 NN 个 方程 组 ， 每 个 
方程 对 应 一 个 状态 。 这 个 方程 组 的 解 定义 环境 N 个 状态 的 最 优 cost-to-go 函数 。 

有 两 种 计算 最 优 策 略 基 本 方法 。 它 们 称 为 策略 迭代 和 值 迭 代 。 这 两 种 方法 分 别 在 12. 4 节 
和 12.5 Wie. 
12.4 FRIAR 

为 了 描述 策略 迭代 算法 ， 我 们 首先 介绍 Watkins (1989) 提出 的 Q -因子 的 概念 。 考 虑 一 


个 现 有 的 策略 w， 它 的 所 有 状态 i 的 cost-to-go AM 天 (让 为 已 知 。 对 每 一 个 状态 EX 和 行动 
a EW;，Q@ -因子 定义 为 瞬时 代价 加 上 遵循 策略 的 所 有 后 继 状态 的 折扣 代价 之 和 ， 表 示 为 


Ca) = clira) +73 ps DJG) l (12. 23) 
其 中 活动 a=p). 注意 Q-AF Q*G,a) i cost-to- © O 
go 函数 J* (让 包 合 的 信息 更 多 。 例 如 ,行动 可 以 只 依 Pila) 
靠 Q -因子 来 排序 ， 而 依靠 cost-to-go 函数 排序 时 还 (G) Q) 


需要 状态 转移 概率 和 代价 的 知识 。 还 要 注意 的 是 在 
式 (12. 22) 中 的 (让 是 由 min Q* (i,a) 获 得 的 。 


通过 设想 由 初始 状态 1,2,…,N 和 所 有 状态 - 行 GD 
动 对 (i,a) 组 成 其 状态 的 新 系统 ， 如 图 12. 2 所 描 图 12. 2 两 个 可 能 的 转移 ， 从 状态 G a 到 
绘 ， 我 们 可 以 深入 了 解 Q -因子 的 含义 。 有 两 种 可 能 状态 7 的 转移 为 概率 性 的 ， 但 从 状态 
发 生 的 不 同 概率 : i 到 状态 (i，a) 的 转移 为 确定 性 的 
1. 系统 在 状态 (i,a)， 在 这 种 状况 下 ， 不 采取 行动 。 以 概率 ps (a) 自动 转变 为 状态 j; 同 
时 招致 代价 g(z,ay7)。 


2. 系统 在 状态 i， 在 这 种 状况 下 ， 采 取 行动 a€ 4; 后 。 下 一 个 确定 性 状态 是 Ga). 
根据 12. 2 节 所 说 ， 我 们 说 策略 u 对 cost-to-go 函数 J*( 引 是 贪心 的 ， 如 果 对 所 有 的 状态 ， 
4 让 是 满足 下 列 条 件 的 活动 :; 
Msp) = minQ*(i,a), 对 于 所 有 i (12. 24) 


对 式 (12. 24) 的 下 列 两 点 观察 是 值得 注意 的 : . 
1. 对 于 某 一 状态 ， 可 能 存在 一 个 以 上 的 活动 ， 能 够 最 小 化 Q 因子 集合 ， 在 这 种 情况 下 ， 
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对 于 有 关 的 cost-to-go 函数 可 以 有 多 于 一 个 的 贪心 策略 。 
2. 不 同 的 cost-to-go 函数 可 能 有 一 个 相同 的 贪心 策略 。 
另外 ， 下 面 的 事实 是 所 有 动态 规划 方法 的 基础 : 


Q Grp? GD = minQ“ (i,a) (12. 25) 
这 里 u 是 最 优 策略 。 : 
用 我 们 处 理 Q -因子 和 贪心 策略 的 概念 ， 可 以 描述 策略 迭代 (policy iteration) HR, Ak 
地 讲 ， 算 法 交替 在 下 面 两 个 步骤 中 运行 : cost-to-go 
1. 策略 评估 步 又， 在 这 个 步骤 里 ， 对 所 有 状态 函数 让 


和 行动 求 当 前 策略 的 cost-to-go 函数 值 和 相应 的 Q- 
因子 的 值 。 

2. 策略 改进 步 又， 更 新 当前 策略 使 其 成 为 第 一 
步 计 算出 的 cost-to-go 函数 的 贪心 策略 

这 两 个 步骤 见 图 12. 3。 具 体 地 讲 ， 我 们 从 某 
一 初始 策略 uo。 开始， 然后 产生 一 系列 新 策略 mo 转移 概率 
1z，"…。 设 当前 策略 为 uo ARB RAL Ret, 图 12. 3 策略 迭代 算法 框图 
计算 cost-to-go 函数 J’ (1) ， 作 为 下 列 线性 方程 组 的 解 (参看 式 (12. 22) ) : 


N 
JAD = Gsm CD EYD Py Cp Dm) i=1,2,.,N (12. 26) 


其 中 Jee C1) ,J% (2),…,J%m (CN) 是 未 知 数 。 使 用 这 些 结果 ， 我 们 对 状态 -行动 对 (i,a) 计算 
Q -因子 (参看 式 (12. 23)) 


N 
Q Cisa) = clira) HYY py (aI (Gj), a€ A 和 i=1,2,N (12. 27) 


接着 ， 通 过 计算 如 下 定义 的 新 策略 po RIE HE GEA. 24)): 
Ban (i) 一 arg min Q“ Ga), 1=1,2,°°5N (12. 28) 


利用 策略 x+: 代替 jy,， 重 复 刚才 描述 的 两 个 步 又 直到 有 
Jem i) = Je G), 对 于 所 有 i 
此 时 终止 算法 于 策略 jn。 由 于 JS, RATA 表 12.1 策略 迭代 算法 小 结 
以 说 经 过 有 限 次 迭代 后 策略 和 迭代 算法 会 结束 ， 因 为 1. 从 任意 的 初始 策略 po 开始 。 
固有 的 马尔 可 夫 决 策 过 程 仅 有 有 限 数目 的 状态 。 表 2 对 所 有 的 状态 iE x 和 行动 a€ 4， 当 n=0,1， 


12. 1 12. 26) (12. 28) i 2,…， 计 算 J” ODAM Q” Ga). 
12.1 概括 了 基于 式 (12. 26) 和 式 的 策略 选 代 Sm HRT OR 


pati (i) = arg min Q* (i,a) 
act, 


策略 评估 





在 强化 学 习 文 献 中 ， 策 略 迭 代 算 法 被 看 成 一 种 
行动 -评定 结构 (actor-critic architecture) ( Barto 
等 ，1983) 。 在 这 个 背景 下 ， 策 略 改进 被 假设 为 行动 
的 角色 ， 因 为 它 对 应 于 学 习 主 体 行动 的 方式 。 根 据 同 样 的 意义 ， 策略 评 估 被 假设 为 评定 的 角 
色 ， 因 为 它 对 应 于 评定 主体 所 采取 的 行动 的 角色 。 


12.5 和 值 迭代 


在 策略 迁 代 算法 中 ， 算 法 每 次 欠 代 过 程 必须 重新 计算 整个 cost-to-go 函数 ， 这 样 代价 是 很 
高 的 。 即 使 新 策略 和 但 策略 的 cost-to-go 函数 很 相似 ， 这 个 计算 也 没有 显著 的 改进 。 然 而 ， 有 
另外 一 种 用 于 寻找 最 优 策 略 的 方法 能 够 在 计算 cost-to-go 函数 时 避免 烦琐 的 重复 计算 。 这 个 以 


4. 重复 第 2，3 步 ， 直 到 mm+1 与 pn 无 差别 ， 那 时 
的 yn 就 是 所 求 的 策略 。 
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次 逼近 为 基础 的 蔡 代 方 法 就 是 值 迭 代 算 法 。 

值 移 代 (value iteration) 算法 涉及 对 有 限 范 围 问题 的 每 个 求解 序列 ， 求 解 式 (12.22) 给 出 
的 Bellman 最 优 性 方程 。 当 算法 的 迭代 数目 趋 于 无 穷 时 ， 在 极限 处 有 限 范围 问题 的 cost-to-go 
函数 对 所 有 的 状态 一 致 收敛 于 相应 的 无 限 范 围 问题 的 cost-to-go R% (Ross, 1983; Bertsek- 
as, 2007). 

A> J, GG) BAR TEAK REE PBR n 时 对 状态 i 的 cost-to-go 函数 。 算 法 从 任意 的 猜测 
Jo( 让 开始 ，i 二 1,2,…,N。 如 果 最 优 cost-to-go 函数 J” (让 的 某 一 估计 可 用 ， 那 么 它 应 该 被 用 
作 初 始 值 J,(i) 。 一 旦 选择 了 J。(i)， 就 可 以 计算 cost-to-go 函数 序列 Ji G), J: O), 4 ,使 用 值 
迭代 算法 : 


Ja = miafe HID ps DLG)» i= 1,2, N (12. 29) 


对 于 状态 i 应 用 式 (12. 29) 描 述 的 cost-to-go 函数 的 更 新 ， 这 称 为 i 的 代价 的 支持 (backing up 
of i?s cost) 。 这 个 支持 是 Bellman 最 优 性 方程 (12. 22) 的 直接 实现 。 注 意 对 状态 ;一 1,2,…，N， 
式 (12. 29) 中 cost-to-go 函数 的 值 在 算法 的 每 一 次 迭代 时 则 时 更 新 。 这 个 实现 方法 表示 值 选 代 
算法 传统 的 同步 形式 : 。 这 样 ， 从 任意 的 初始 值 (1) Jose Jo CN FFM, SIERRA n 
近 无 穷 时 ， 式 (12. 29) 描 述 的 算法 将 收敛 于 相应 的 最 优 值 J (1), 矿 (2)，… J OND. RAMI 
说 ， 值 迭代 需要 无 限 次 迭代 。 

与 策略 迭代 算法 不 同 的 是 ， 在 值 欠 代 算 法 中 不 是 直接 计算 最 优 策略 ， 而 是 首先 用 式 
(12. 29) 计算 最 优 值 矿 (1) ,J* (2),…,J*(N)， 然 后 获得 关于 该 最 优 集合 的 贪心 策略 作为 最 
优 策略 。 就 是 说 ， 


po (DD) = arg minQ’ (Gisa), i= 1,2,0oN (12. 30) 
这 里 
Q* (isa) = Cina) +7) p 0J" Gj), i=1,2.0+5N (12. 31) 


# 12.2 给 出 了 基于 式 (12. 29) 至 式 (12. 31) 的 值 闪 代 算法 的 小 结 ， 其 中 包括 式 (12. 29) 的 停 
止 准则 。 


R122 MARAA 
L 从 状态 i=1,2,… ,NN 的 任意 初始 值 Jo(CD 开 始 。 
2. 对 nn 二 0,1,2,… ,计算 
N 
Jm @ = min felisa) HYD Py Da G)» Y ac a 
a€ st. j=l z 一 


重复 这 种 操作 直到 
[Jen DSD | <e 对 每 个 状态 i 
这 里 的 < 是 指定 的 容许 参数 。 假 定 e BED, EJ (让 充分 接近 最 优 cost-to-go 函数 J* (i) 。 因 此 我 们 可 以 置 
JD =J] D 对 所 有 状态 i 
3. 计算 Q -因子 
Ga) = cli ` n Xacli H 
Q Cisa) = elisa) +793 Pa DJ ,oN 
由 此 ， 确 定 贪心 策略 作为 J* 人 的 最 优 策略 : 
yp” G)=arg min Q” (i,a) 
ae ot, 
NN 
例 1 值 迁 代 和 策略 迭代 之 间 的 关系 


为 了 理解 值 和 迭代 和 策略 迭代 之 间 的 关系 ， 考 虑 图 12. 4 所 示 的 例子 。 图 中 a 描写 了 在 策略 迭 
代 中 计算 Q -因子 Q' ia) 的 候选 操作 ，b HM TEAR PITA Q -因子 Q (i,a) 的 相应 的 候选 操 
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作 。 图 中 每 一 个 无 阴影 的 小 圈 表 示 一 个 状态 ， 每 一 个 有 阴影 的 小 圈 表 示 一 个 状态 -行动 对 。 假 设 
从 状态 j 开始 。 学 习 系 统 可 能 取 三 个 可 能 行动 中 的 任意 一 个 ， 环 境 能 够 响应 与 6 个 可 能 状态 -行动 
对 中 的 任意 一 个 ; (i,a)〉 是 这 样 的 一 个 状态 -行动 对 ， 对 其 的 变换 代价 记 为 g(i,7)。 

检查 图 12. 4， 可 以 发 现 策略 迭代 和 值 迭 代 的 后 备 操作 是 等 价 的 ， 除了 一 个 基本 不 同 外 : 
值 迭 代 需 要 在 所 有 可 能 状态 -行动 对 上 取 的 最 大 值 ， 如 图 12. 4b 所 示 。 






在 所 有 可 能 
状态 -行动 对 
上 取 最 大 值 





a) b) 
图 12.4 对 a) 策略 迭代 和 b) 值 迭 代 图 示 候 选 方案 


例 2 驿 车 问题 

为 了 说 明 Q -因子 在 动态 规划 中 的 作用 ， 考 虚 驿 车 问题 (stagecoach problem) 。 在 19 世纪 
中 叶 密 苏 里 的 一 个 探索 者 决定 去 西部 加 入 在 加 利 福 尼 亚 的 淘金 潮 (Hiller and Lieberman, 
1995)。 行 程 需要 乘 驿 车 穿 过 不 安全 的 乡村 ， 沿 途 会 有 强盗 攻击 的 危险 。 行 程 的 起 始点 ( 密 苏 
里 州 ) 和 终点 (加利福尼亚 州 ) 是 固定 的 。 但 是 有 很 多 可 以 选择 的 路 径 ， 有 可 能 经 过 其 他 8 个 
州 ， 如 图 12. 5 所 示 。 在 图 中 ， 有 以 下 规定 : 

© 一 共 10 个 州 ， 每 个 州 用 一 个 字母 表示 。 

。 行进 的 方向 是 从 左 到 右 。 

。 从 开始 的 状态 A( 密 苏 里 州 ) 到 终点 的 状态 了 (加 利 福 尼 亚 州 ) 有 4 个 阶段 “ 即 ， 驿 车 


运行 路 径 ) 。 
。 探索 者 从 一 个 状态 到 下 一 个 状态 行动 是 向 上 (Up)、 直 接 向 前 〈Straight) 或 向 下 
(Down) 的 。 


。 从 A 到 J 一 共有 18 条 可 能 路 径 。 








图 12.5 驿 车 问题 的 流向 图 
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图 12. 5 还 包括 对 每 一 条 路 径 的 人 身 保 险 策略 的 代价 ， 选 择 每 一 条 路 线 是 基于 对 该 路 线 的 
安全 代价 的 仔细 评 佑 。 间 题 是 从 A 到 JJ 找 到 一 条 人 身 保 险 最 廉价 的 路 线 。 
为 了 找到 最 优 路 线 ， 我们 从 终点 J 了 开始 向 后 推 滨 ， 考虑 一 系列 有 限 范 围 问 题 。 这 符合 
12.3 WH Bellman 最 优 性 原则 。 
计算 终点 前 的 最 后 一 阶段 的 Q -因子 ， 从 图 12. 6a 可 以 得 出 终点 Q - 值 如 下 ， 
Q(H.down) = 3 
Q(I,up) = 4 
在 图 12. 6a 中 ， 这 些 数 值 分 别 表示 在 状态 HAIE. 
然后 向 后 再 移动 一 阶段 ， 使 用 图 12. 6a 得 出 的 Q - 值 ， 计 算 下 面 的 Q - 值 ， 


Q(E, straight) = 1 十 3 一 4 
QE, down) 一 4 十 4 一 8 
Q(F,up) = 6+3=9 
QCF,down) = 3 十 4 一 7 
Q(G,up) = 3+3=6 
Q(G,straight) = 3 十 4 一 7 


由 于 需要 找到 最 小 保险 策略 的 路 径 ，Q - 值 表明 只 有 下 一 互 ，F 一 [各 G 一 瓦 路 径 应 保留 ， 而 其 
他 路 径 应 删除 ， 如 图 12. 6b 所 示 。 
再 向 后 移动 一 阶段 ， 对 状态 B，C， DD 重复 这 种 Q -因子 计算 ， 保 留 那 些 有 最 低 安 全 评价 
的 路 径 ， 就 得 到 图 12. 6c。 
最 后 ， 向 后 移动 到 第 一 阶段 ， 重 复 上 面 的 计算 ， 就 得 到 图 12. 6d。 从 图 中 我 们 看 到 共有 3 
条 最 优 路 径 如 下 : 
A>C?+E>H-J] 
A>D>+>E>H->J 
A—~D->F->I->J 
它们 产生 的 总 体 代 价 都 是 11。 也 要 注意 的 是 通过 日 的 所 有 3 个 最 优 路 径 中 在 前 进 中 的 所 有 3 


个 可 能 选择 中 从 A BB 的 瞬时 代价 是 最 小 的 。 m 
3 4 








图 12.6 计算 驿 车 问题 Q -因子 涉及 的 步骤 
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12.6 逼近 动态 规划 : 直接 法 


Bellman 动态 规划 是 完美 的 。 然 而 ， 它 假设 从 一 个 状态 到 另 一 个 状态 之 间 的 转移 概率 的 显 
式 模型 是 可 用 的 。 不 幸 的 是 ， 在 多 个 实际 情形 下 ， 这样 的 模型 是 不 能 得 到 的 。 然 而 ， 有 了 构造 
良好 的 动态 规划 ， 其 状态 空间 具有 易 控 制 的 大 小 ， 我 们 可 以 利用 Monte Carlo 模拟 来 显 式 地 估 
计 转 移 概率 及 相应 的 转移 代价 ; 从 其 自身 的 特性 ， 这 样 的 估计 是 逼近 的 。 我 们 称 这 一 方法 是 直 
FEW (direct) 逼近 动态 规划 ， 因 为 这 里 讲述 的 模拟 的 使 用 方便 了 动态 规划 方法 的 直接 应 用 。 

作为 直观 的 例子 ， 考 虑 一 个 多 用 户 信 道 网 络 ， 关 于 它 的 感 兴趣 的 问题 是 动态 频道 分 配 。 假 
设 分 配给 频道 使 用 的 模式 的 代价 依赖 于 通过 给 定 频道 的 通话 间 的 距离 。 具 体 来 说 ， 在 频道 分 享 
通话 中 彼此 靠近 的 用 户 模 式 比 彼此 较 远 的 频道 分 享 通话 模式 更 有 利 。 换 句 话说 ， 信 道 网 络 为 在 
网 络 中 规定 方式 下 操作 的 用 户 的 服务 通话 装备 有 发 展 良好 的 代价 结构 。 有 了 这 样 的 动态 系统 ， 
就 可 以 利用 Monte Carlo 模拟 来 允许 动态 规划 直接 应 用 于 这 样 的 网 络 (Nie and Haykin， 
1998). 

基本 上 ， 动 态 规划 的 直接 应 用 的 合理 性 在 于 利用 计算 机 模拟 来 产生 多 系统 轨迹 (multiple 
system trajectories) ， 这 导致 对 于 每 个 状态 值 具有 独立 人 口 的 查找 表 (look-up table) 的 构造 ; 
系统 轨迹 的 数目 越 大 ， 模 拟 结果 将 自然 地 更 可 信 。 特 别 地 ， 每 一 次 状态 i 被 模拟 系统 的 轨迹 访 
问 时 独立 变量 本 (让 被 保留 在 存储 中 。 这 样 做 时 ， 我 们 已 经 用 从 状态 i 到 状态 7 的 概率 转移 和 发 
生 的 瞬时 转移 代价 g (i, 门 模拟 了 一 个 动态 系统 。 

因此 ， 该 阶段 为 两 个 基本 动态 规划 方法 直接 通 近 : 值 迁 代 和 策略 迭代 。 特 别 地 ， 

。 在 值 和 迭代 的 情形 ， 我 们 得 到 时 序 差分 学 习 ; 

。 在 策略 迭代 的 情形 ， 我 们 得 到 Q -学 习 。 

这 两 个 算法 分 别 在 第 12.7 节 和 12. 8 节 中 讨论 ， 它 们 在 强化 学 习 中 是 广为人知 的 。 我 们 因 
此 将 强化 学 习 看 成 是 动态 规划 的 直接 应 用 。 

最 后 的 评论 ， 自 然 地 ， 查 找 表 的 建立 是 有 存储 限制 的 。 因 而 时 序 差 分 和 Q -学 习 的 实际 应 
用 限制 于 状态 空间 是 中 等 大 小 的 状况 。 


12.7 ”时 序 差分 学 习 


时 序 差 分 学 习 的 思想 最 早 见于 Sutton (1988) 。 我 们 通过 考虑 这 一 动态 规划 逼近 形式 的 最 
简单 版 本 〈 称 为 TD(0) 算 法 ) 来 开始 讨论 ，TD 是 指 时 序 差分 (temporal difference). 
TD(0) 学 习 算 法 

S 为 导致 马尔 可 夫 决 策 过 程 状态 演化 的 策略 。 状 态 是 通过 序列 {inao RREK 状态 
转移 的 最 高 数目 是 N， 终 止 状态 i 二 0。 令 goi HARA i 转移 到 状态 is+1 时 发 生 的 瞬 
时 代价 ， 其 中 索引 n= 二 0,1,…,N 一 1。 然 后 根据 Bellman 方程 ，cost-to-go MBE XW: 

J*Gi,) = Elg lin sima) TJ Cin), n=0,1,,N—1 (12. 32) 
其 中 ， 对 每 个 x， 在 所 有 可 能 发 生 的 状态 in 上 计算 总 体 平 均 。 从 实际 的 角度 看 ， 我 们 需要 的 
是 一 个 迭代 算法 ， 它 能 够 避免 总 体 平均 的 需要 。 为 此 ， 可 以 调用 在 第 3 章 中 讨论 过 的 Robbins- 
Monro 随机 通 近 。 

为 了 这 一 随机 逼近 的 实质 ， 考 虑 下 面 的 关系 
r= (l—pr-+ yg (7-0) 

其 中 > 是 旧 值 ，7 是 小 的 正 的 步 长 参数 ， 它 能 够 从 一 次 迭代 到 下 一 次 近代 发 生 改 变 ， 新 的 变量 
o EREDE pvr (5|r) 产 生 的 随机 变量 ， 如 前 一 章 所 述 ， 在 r+ 中 的 上 标 加 号 表示 “更 新 ”。 
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因此 ， 将 Robbins-Monro 随机 逼近 用 于 式 (12. 32) 的 Bellman 方程 ， 得 到 
Jt Gi) = A= PIG) + lg Gn sim) +I Ga] 
= JG.) + pg Gn sien) +J Gend) — FG.) ] (12. 33) 
其 中 左边 的 IG ) 是 更 新 估计 ， 在 每 一 次 状态 i, 被 访问 时 计算 。 为 了 简化 问题 ， 我 们 现在 引 
人 人 时序 差分 ， 定 义 为 
d, = glinsim) FJ Cmi) — Jn), n=0,1,…,N—1 (12. 34) 
这 表示 了 两 个 量 之 间 的 差 ; 
。 基于 当前 状态 模拟 结果 的 总 体 cost-to-go BM, B gG, inti) HJ Gi) 
。 当前 估计 JG). 
实际 上 ， 时 序 差分 d, 为 当前 估计 J(z) 是 增长 还 是 下 降 提 供 了 信和 号。 利用 式 (12. 34) 的 定 
义 ， 可 以 将 式 (12. 33) 的 迭代 算法 重 写 为 简单 形式 ;: 
JE Gad = JG) + yd, (12. 35) 
其 中 JGO OEM. JT GODERMI, RED md (n) 是 作用 于 当前 估计 上 为 了 产生 更 新 
项 的 修正 (correction) 。 
式 (12. 35) 的 一 步 更 新 规则 通常 被 称 为 TD(0) 算 法 ; 这 一 命名 的 原理 在 本 节 的 后 面部 分 将 
变 得 很 明显 。 每 一 次 状态 i, 被 访问 时 更 新 会 发 生 ， 时 序 差分 d, 也 成 为 可 用 的 。 
Monte Carlo 模拟 算法 
式 (12. 35) 描 述 了 一 个 特别 的 迭代 算法 ， 由 Bellman 方程 推导 而 得 。 从 另 一 个 观点 和 不 同 
的 算法 上 看 ， 考 虑 如 下 的 cost-to-go 函数 


N-r-1 
rea, =e >) gmsrimen) |, m= Ole N=1 (12. 36) 


其 中 ， 这 一 次 ， 期 望 算 子 是 作用 于 属于 整个 状态 转移 序列 的 独立 代价 的 。 这 里 再 一 次 将 Rob- 
bins-Monro 随机 和 逼近 作用 到 式 (12. 36) ， 得 到 《在 整理 了 共同 项 后 )、 


Jt GD = 1G) + me) Bee aes) JG, ) ) (12. 37) 


其 中 p 是 随时 间 变 化 的 步 长 〈 学 习 率 ) 参数 。 这 一 一 更 新 公式 可 以 表示 成 等 价 形式 : 
JE Gig) = J Ga) + ple CGn ria) FI Get) — J Ga) A g Cin sin) HJ Gm) — J Cntr) 
+ ECzw 3 stn) + J Cin) 一 J Cin-2) + gCinn sin) + J Cin) — J lina) ] 
其 中 ， 最 后 一 行 利用 了 终止 状态 in =0 的 性 质 ， 这 相应 地 意味 着 代价 J(Gzx) 一 0。 相 应 地 ， 引 用 
式 (12. 34) 中 引入 的 时 序 差分 的 定义 ， 我 们 发 现 式 (12. 37) 的 选 代 算法 可 假设 为 简化 形式 


一 叶 1 


J? (i) = IG) 十 Dy dmn (12. 38) 


实际 上 ， 式 (12. 38) 是 轨迹 (insit sin} 的 Monte Carlo 模拟 的 迭代 执行 ， 其 中 in 二 0 一 一 因 
此 将 这 一 方程 称 为 Monte Carlo 模拟 算法 。 为 了 验证 这 一 陈述 ， 我 们 做 两 个 假设 : 

1. 差分 模拟 系统 轨迹 是 统计 独立 的 。 

2. .每 一 个 轨迹 是 根据 策略 .下 的 马尔 可 夫 决 策 过 程 产生 的 。 

继续 这 一 证 明 过 程 ， 令 c(i,) 表 示 在 模拟 时 间 n 遇 到 状态 i 时 序列 intro sin) RE 
的 代价 总 和 ; B 


N 一 rm 一 1 


cei) = >) glirinn) 于 一 0 一 1 (12. 39) 
k=0 
然后 ， 可 以 用 


T 


JG,) = FD (12. 40) 
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这 是 在 访问 了 状态 i, 一 共 了 次 模拟 之 后 计算 的 。 因 此 ， 总 体 平 均 cost-to-go 函数 的 估计 是 


J" Cin) 一 ELcGa)]， 对 于 所 有 (12. 41) 
直接 可 证 式 (12. 40) 的 样本 均值 可 以 通过 下 面 的 迭代 公式 来 计算 
J? Ga) = JG) + h CGn) — IG.) (12. 42) 
从 如 下 的 初始 条 件 开始 
JG,) 一 0 
并 设 步 长 参数 为 
六 一 =, n= 1,250 (12. 43) 


我 们 发 现 式 (12. 42) 是 式 (12. 38) 的 迭代 算法 的 简单 重 写 ， 此 时 利用 了 为 处 理 Monte Carlo 模拟 
时 序 差 分 的 观点 而 引入 的 新 记号 。 
时 序 差分 的 联合 观察 : TDA) 
在 刚刚 讨论 过 的 时 序 差 分 学 习 中 ， 我 们 推导 了 迭代 算法 的 两 个 有 限 形式 : 
© 式 (12. 35) 的 迭代 算法 ， 从 Bellman 方程 推导 而 得 ， 说 明 从 状态 i 到 +: 的 转移 瞬时 
代价 。 
。 式 (12. 38) 的 选 代 算法 ， 根 植 于 Monte Carlo 模拟 ， 说 明 在 整个 序列 上 状态 转移 招致 的 
累计 代价 。 
显然 ， 在 这 两 个 迭代 过 程 中 必定 存在 一 个 中 间 范 围 ， 这 值得 考虑 。 为 了 得 到 这 一 中 间 范 
围 ， 我 们 引入 两 个 修正 〈Bertsekas and Tsitsiklis, 1996): 
1. 扩展 Bellman 方程 以 考虑 对 某 固定 的 ! 转移 到 第 一 个 /十 1 状态 招致 的 独立 代价 : 


i 
J* (i,) = E| D elite sine) +I" Gest) | (12. 44) 


2. 没有 先 验 知 识 用 于 促成 相对 于 其 他 值 来 说 某 个 希望 的 ! 值 ， 我 们 通过 在 式 (12. 44) 的 右 
端 乘 以 (1 一 1)X 来 形成 在 所 有 可 能 多 步 Bellman 方程 上 的 加 权 平均 并 且 对 某 个 固定 的 \<1 在 / 
上 求 和 : 


JG.) = (1 一 AD)E ef Sy (Peinetan HI Gem) | 
由 于 我 们 正在 处 理 线性 方程 ， 因 此 可 以 交换 和 的 顺序 : 
JG) = ea) Ð Grasi DA += DAI" Gum] (12. 45) 
现在 采用 下 面 两 个 公式 的 记号 
1. (1—A) 2 一 2 一 2 


2. CLA) SIA Gps) = DIA Gates) — DAY J" Gest) 
i=0 t=0 


1 一 0 








= SAI" Gem) — DAT Grmu) + IG) 
1=0 


i=0 


相应 地 ， 可 以 重 写 式 (12. 45) 为 等 价 形式 
J i) = Dye Calina intern) FAT" Gren) ZAJ Cm)) | HJG 12. 46) 


其 中 ， 为 了 表示 的 紧凑 ， 我 们 对 右 端 方 括号 中 的 三 个 项 简单 地 利用 了 & 来 代替 i。 现 在 可 以 通 
过 式 (12. 34) 引 入 的 时 序 差分 定义 来 简化 问题 了 。 为 了 这 样 做 ， 我 们 再 一 次 重 写 式 (12. 46) 为 下 
面 的 简单 形式 
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J*(i,) = E| Satan] FJG) 





=e] Dad, | HIG), X n = 0,1, =, N— 1 (12. 47) 


认识 到 对 菜 固定 的 值 4， 对 依照 Bellman 方程 的 所 有 有， 我 们 有 EL4dj] 一 0， 我 们 几乎 不 认为 式 
(12. 47) 有 什么 奇怪 。 某 种 意义 上 ， 可 以 在 点 1 和 2 下 的 修正 将 分 析 的 网 络 结果 求 和 ， 仅 仅 对 


FIAI n EERE GJE G Jm aa Yaa, | = 0 。 无 论 如 何 ， 这 一 结 


果 都 不 会 对 我 们 继续 应 用 Robbins-Monro 随机 逼近 产生 显著 影响 ， 正 如 下 面 要 说 明 的 那样 。 
具体 地 讲 ， 将 这 一 逼近 应 用 到 式 (12. 47) 产 生 和 迭代 算法 ， 


Jt G = A PIG +y Daa + IG) 
在 消去 一 些 项 后 ， 简 化 为 
J GD = IG, + qd A "d, (12. 48) 


式 (12.48) 的 迭代 算法 通常 称 为 TD); 如 前 所 述 ， TD 意味 着 “时 序 差分 ”。 这 一 算法 
是 Sutton (1988) 首先 提出 的 。 值 得 注意 的 是 为 了 推导 这 一 算法 ， 我 们 利用 了 Bellman 动态 规 
划 、Monte Carlo MW. PEPEN H BAR. 

而 且 ，TDG) 包 含 了 式 (12. 35) 和 式 (12. 38) 的 迭代 算法 作为 两 个 特例 ; 

1. MRS A=0 且 利 用 规定 0 二 1， 则 式 (12. 48) 衰 减 为 : 

J* Ga) = JG.) + 4d, 

这 是 由 利用 动态 规划 方法 推导 的 式 (12. 35) 的 重复 。 事实 上 ， 这 是 式 (12. 35) 的 算法 被 称 为 TD(0) 
的 原因 ， 正 如 我 们 前 面 指出 的 那样 。 

2. 对 另 一 个 有 限 情 形 ， 如 果 令 4 二 1， 则 式 (12. 48) 衰 减 为 

J G,) = IG, + Ds dns 

除 伸缩 因子 7 外 ， 上 式 是 利用 Monte Carlo 评估 方法 推导 的 式 (12. 38) 的 重复 。 注 意 对 于 nn 大 
于 或 等 于 规划 范围 N 时 时 序 差分 d, Æ O. 
作为 小 结 ， 我 们 可 以 陈述 如 下 : 

式 (12. 48) 讲 述 的 TD 方法 是 一 种 在 线 预 测 方 法 ， 它 学 习 如 何在 部 分 基于 其 他 估计 时 计算 
它们 的 估计 。 

换 句 话说 ，TD 方法 是 一 种 引导 指令 (bootstrapping) 方法 。 更 重要 的 是 ,它们 不 需要 环 
境 模型 。 
实际 考虑 

根据 Bertsekas and Tsitsiklis (1996)， 对 某 状态 io E TD(A) 算 法 产生 的 估计 值 7 了 (za) 收 
SEER u 的 总 体 平均 值 J“(X)， 如 果 下 面 的 两 个 条 件 得 到 满足 : 

1. 对 所 有 的 n 状态 i, 被 轨迹 频繁 地 访问 无 数 次 。 

2. 步 长 参数 y 被 允许 在 适当 的 速率 下 减少 到 0。 

在 Bertsekas and Tsitsiklis (1996〉 对 这 一 收敛 性 的 证 明 中 显示 ， 在 完成 TD(4) 算 法 的 学 
习 过 程 中 ， 参 数 4 的 改变 没有 理论 上 的 障碍 。 那 儿 的 理论 考虑 为 选择 合适 的 4 值 建议 了 一 个 敏 
感 策略 ， 从 接近 于 1 的 大 的 * 值 开始 TD(X) 算 法 的 执行 ( 即 初始 阶段 促进 总 体 平均 cost-to-go 
函数 的 Monte Carlo 估计 )， 然 后 允许 A EMBO CBN, RHE Bellman 方程 产生 的 估计 移动 ) 。 
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在 广泛 的 意义 上 说 ， 和 是 某 种 形式 的 在 时 间 过 程 上 的 退火 。 
12.8 QQ -学 习 


前 一 节 作 为 动态 规划 的 随机 区 近 推导 得 到 的 TDC) 算法 是 无 模型 算法 。 这 一 节 中 ， 我 们 找 

一 个 随机 算法 ， 称 为 Q -学 习 ， 它 也 不 需要 显 式 的 关于 环境 的 知识 。Q -学 习 由 Watkins 
(1989) 首先 推导 出 来 的 。Q -学 习 中 的 字母 Q 并 不 意味 着 什么 特别 的 意义 ; 它 仅 仅 是 Watkins 
在 他 最 初 推导 这 一 算法 时 采用 的 记号 。 

为 了 激发 Q -学 习 的 讨论 ， 考 虑 图 12. 1 中 的 强化 学 习 系 统 。 这 一 系统 的 行为 目标 ， 是 在 试 
验 各 种 可 能 的 行动 序列 和 观察 引起 的 代价 以 及 发 生 的 状态 转移 之 后 ， 如 何 寻找 最 优 〈 即 最 小 化 
代价 ) 策略 。 用 于 产生 行为 的 策略 被 称 为 行为 策略 (behavior policy) 。 这 一 策略 是 与 估计 策略 
值 为 目的 的 估计 策略 (estimation policy) 不 同 的 。 有 了 这 两 个 彼此 不 同 的 策略 ，Q -学 习 被 称 
为 用 于 控制 的 off-policy 方法 。 从 这 一 分 别 中 得 到 的 好 处 是 估计 策略 可 以 是 贪心 的 ， 而 行为 策 
略 用 于 样本 化 所 有 可 能 的 行动 。Off-policy 方法 可 以 从 on-policy 方法 中 区 别 开 来 ， 其 中 策略 的 
值 被 估计 ， 同 时 该 值 被 用 于 控制 。 
Q -学 习 算 法 

为 了 推导 Q -学 习 算 法 , 令 


Sa 一 Ci, yan sn» Bnd (12. 49) 
一 个 四 元 组 样本 由 下 述 项 组 成 : 在 状态 in 上 的 一 个 试验 行动 a,， 以 代价 
Bn = Bn Anojn) (12. 50) 


对 jj 二 +1 的 状态 转移 。 其 中 表示 离散 时 间 。 给 定 了 这 样 的 方案 之 后 ， 我 们 现在 给 出 如 下 的 
基本 问题 : 

是 否 存 在 在 线 方法 通过 经 验 学 习 最 优 控制 策略 ? 经 验 是 仅仅 从 观察 样本 的 基础 上 获得 的 ， 
样本 的 形式 在 式 (12. 49) 和 式 (12. 50) 中 定义 。 

对 于 这 个 基本 问题 的 回答 是 肯定 的 ， 它 能 在 Q -学 习 中 找到 *。 

Q -学 习 是 一 种 增 量 式 的 动态 规划 过 程 ， 用 一 步 一 步 的 方式 来 决定 最 优 策 略 。 它 非常 适合 
于 求解 没有 明显 的 转移 概率 知识 的 马尔 可 夫 决 策 问题 。 但 是 ， 和 TDG) 相 似 ， 成 功 应 用 Q -学 
习 的 关键 在 于 假设 环境 状态 是 完全 可 观察 的 ， 这 就 意味 着 环境 是 完全 可 观察 的 马尔 可 夫 链 。 

回忆 12.4 节 ， 状 态 - 行 动 对 Ga) 的 Q@- 因 子 Q(i，a) 是 由 式 (12.23) 定 义 的 ， 而 Bellman 
最 优 性 方程 由 式 (12. 22) 定 义 。 联 合 这 两 个 方程 并 且 利 用 (12. 20) 给 出 的 瞬时 期 望 代价 eCi,a) 的 
定义 ,我们 得 到 


Q' Gra) = Dp (acinar) + 7 ming GD) 对 于 所 有 (ia) (12.51) 


这 可 看 作 Bellman 最 优 性 方程 的 两 步 形式 。 式 (12. 51) 的 线性 方程 组 的 解 对 所 有 状态 -行动 对 
Ga) 唯一 地 定义 最 优 Q -因子 Q Ga). 

我 们 可 以 利用 12. 4 节 中 基于 Q -因子 构造 的 值 迁 代 算法 求解 这 个 线性 方程 组 。 因 此 ， 对 于 
算法 的 一 步 迭 代 我 们 有 


Q' Ga = Spy (gaj) +7 minQG.b)), 对 于 所 有 (ia) 
这 个 迭代 的 小 步 长 的 形式 可 描述 为 
Q* Ga) = (1 一 mGa) +9275 (a)(gG,a.j) +y minQG 9 对 于 所 有 (i,a) 
(12. 52) 
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其 中 为 很 小 的 学 习 率 参数 ， 位 于 区 间 0 二 7<1 内 。 

从 它 的 形式 上 看 ， 由 式 (12. 52) 描 述 的 值 迁 代 算法 的 一 次 迭代 要 求 转移 概率 的 知识 。 我 
们 可 以 构造 这 一 方程 的 随机 方式 ， 从 而 消除 对 这 一 先 验 知识 的 需求 。 具 体 地 讲 ， 在 式 
(12. 52) 的 一 次 迭代 中 对 所 有 可 能 状态 求 平均 被 单个 样本 所 替代 ， 因 而 导出 下 列 对 Q -因子 
的 更 新 公式 : 

Qm: Ga) = (1— ni,a))Q, Cisa) +o GraleGsasj) +y7J,G)] 4G.,a) = (insan) 

(12. 53) 
其 中 
JG) = min Q, (J +5) (12. 54) 


Hj ABER. 1 (i, a) 为 在 时 间 步 n 时 状态 -行动 对 (i,a〉 的 学 习 率 参数 。 更 新 公式 
(12. 53) 应 用 于 当前 状态 -行动 对 (i, ,a,)， 根 据 式 (12. 49) 此 时 7 一 7.。 对 人 允许 的 其 余 状 态 -行动 
对 ，Q -因子 仍 保持 不 变 ， 表 示 为 


Qumi Cisa) = Q, (i,a) 对 于 所 有 的 (i,a) 天 《ian) (12.55) 
式 (12. 53) 至 式 (12. 55) 组 成 Q -学 习 算 法 的 一 次 迭代 。 
We Se sae BRS 
RF REM 办 (ia) 满 足 条 件 : 
> Ga) = 和 和 D7 Ga) <o 对 于 所 有 的 (i,a) (12. 56) 


当选 代步 数 坟 趋 于 无 穷 大 时 ， 假定 所 有 的 状态 - 行动 对 被 无 限 地 经 常 访 问 ， 那 么 ， 对 所 有 状态 
行动 对 (ia) 由 @Q- 学 习 算 法 产生 的 Q- -因子 序列 {Q (isa) 以 概率 1 KATRE Q (isa). 


一 个 保证 算法 收敛 的 时 变 学 习 率 参数 的 样本 为 


— _@ 一 tes l 
h= et n= 1,2, (12. 57) 





其 中 a 和 8 为 正 数 。 
小 结 和 讨论 
Q -学 习 可 以 看 成 两 个 等 价 方式 中 的 一 个 : 
作为 Robins-Monro 随机 逼近 算法 或 作为 值 选 代 和 Monte Carlo 模拟 的 组 合 。 


在 算法 的 每 一 步 迭 代 中 它 支 持 单个 状态 -行动 对 的 Q- 因 子 。 最 重要 的 是 ， 无需 形成 固有 的 
马尔 可 夫 决 策 过 程 的 明显 模型 ， 算 法 的 极限 收敛 到 最 优 Q - 值 。 一 旦 最 优 Q - 值 可 用 ， 利 用 式 
(12. 30) 以 相当 少 的 计算 便 可 决定 一 个 最 优 策略 。 

假设 使 用 查找 表 来 表示 状态 -行动 对 (i,a) 的 Q- 因 子 Q, (i,a)，Q -学 习 算 法 收敛 到 最 优 策 
略 这 种 表示 方法 简单 且 计 算 效率 高 。 但 是 它 仅 在 构成 联合 输入 空间 的 状态 -行动 对 为 中 等 规模 
时 才能 有 效 。 
探测 

在 策略 选 代 中 ， 状 态 空间 的 所 有 洪 在 的 重要 部 分 都 应 探测 到 。 在 Q -学 习 中 我 们 有 一 个 附 
MWER: 所 有 次 在 有 用 的 行动 也 都 应 被 测试 。 特 别 地 ， 对 所 有 人 允许 的 状态 -行动 对 应 该 经 ve 
测 足 够 的 次 数 以 满足 收敛 定理 。 对 于 记 为 y 的 贪心 策略 ， 只 有 状态 - FEBA Gon) BRB 
遗憾 的 是 并 不 能 保证 测试 所 有 有 用 的 行动 ， 即 使 探测 完 所 有 状态 空间 亦 是 如 此 。 

我 们 需要 的 策略 是 提供 两 个 冲突 目标 之 间 的 折 中 ， 以 此 扩展 Q -学 习 〈Thrun，1992) : 

。 探测 ， 它 保证 对 所 有 人 允许 的 状态 -行动 对 探测 足够 次 数 以 满足 Q -学 习 收 敛 定理 。 
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。 利用 ， 它 遵循 贪心 策略 以 寻求 最 小 化 cost-to-go MRM. 
达到 这 种 折 中 的 一 种 方法 为 遵循 混合 非 稳定 (mixed nonstationary) 策略 ， 这 一 策略 在 辅 
助 马尔 可 夫 过 程 和 原始 马尔 可 夫 过 程 之 间 转 换 ， 原 始 马尔 可 夫 过 程 ， 是 由 Q -学 习 确 定 的 稳定 
贪心 策略 控制 的 《Cybenko,1995)。 辅 助 过 程 有 下 列 解释 ， 可 能 状态 间 的 转移 概率 由 原始 控制 
过 程 的 转移 概率 确定 ， 原 始 过 程 具 有 附加 成 分 ， 其 对 应 的 行动 是 一 致 随机 性 的 。 混 合 策略 从 辅 
助 过 程 的 任何 状态 开始 ， 随 之 选择 行动 ， 然 后 切 辅助 过 程 。 ”原始 控制 过 程 
换 到 原始 控制 过 程 ， 以 图 12. 7 中 的 方式 向 前 或 向 
后 进行 。 消 耗 在 辅助 过 程 上 的 操作 时 间 占 有 固定 
数目 的 工 步 ， 定 义 为 访问 辅助 过 程 所 有 状态 的 最 BN mM on mM 
长 期 望 时 间 的 2 倍 。 消 耗 在 原始 控制 过 程 的 时 间 图 12.7 居于 辅助 过 程 和 原始 控制 过 程 的 时 间 段 
随 每 次 切换 逐步 增加 。 令 m 表示 从 辅助 过 程 到 原始 控制 过 程 的 切换 时 间 ，m 表示 切换 回 辅助 
过 程 的 时 间 ，m 和 mi 分 别 定 义 为 
n =mi FL, k= 1,2. m =l (12. 58) 
和 
m, 一 和 十 AL，R 一 12 … 
构造 辅助 过 程 使 得 当 A>co 时 ， 以 概率 1 访问 所 有 状态 无 穷 次 ， 因 而 保证 收敛 到 最 优 Q -因子 。 
进一步 ， 当 A->co， 混 合 策略 在 辅助 过 程 上 所 消耗 的 操作 时 间 渐 进 地 为 消耗 在 原始 控制 过 程 的 
操作 时 间 的 一 小 部 分 ， 这 就 意味 着 混合 策略 渐进 收敛 到 一 个 贪心 策略 。 因 此 ， 如 果 Q -因子 收 
伍 到 它们 的 最 优 值 ， 贪 心 策略 确实 必定 是 最 优 的 ， 只 要 策略 变 为 贪心 策略 时 足够 地 慢 。 


12.9 逼近 动态 规划 : 非 直 接 法 


典型 地 ， 大 规模 动态 系统 具有 高 维 状 态 空 间 。 所 以 ， 当 我 们 处 理 这 样 的 系统 时 ， 会 遇 到 维 
数 灾 问 题 ， 这 是 指 随 着 状态 空间 维 数 的 增加 计算 复杂 度 星 指数 增长 。 不 幸 的 是 ， 维 数 灾 不 仅 在 
Bellman 动态 规划 中 出 现 ， 而 且 在 其 两 个 直接 逼近 形式 中 〈 时 序 差分 学 习 和 Q -学 习 ) hem 
手 的 。 为 了 说 明 这 一 重要 的 实际 问题 ， 考 虑 包含 N 个 可 能 状态 和 对 每 个 状态 有 M 个 允许 行动 
的 动态 规划 问题 ， 在 这 样 的 系统 中 ， 例 如 值 迭 代 算法 的 每 一 次 迭代 对 于 稳定 策略 需要 N*M 次 
运算 。 当 N 很 大 时 运算 所 需 的 计算 量 使 得 它 甚至 不 可 能 完成 算法 的 一 次 迭代 。 

为 了 处 理 包 含 大 量 状态 的 困难 的 实 志 界 问题 ， 我 们 可 以 寻找 逼近 动态 规划 的 菜 种 逼近 形 
式 ， 这 与 12. 6 节 讨论 的 直接 法 是 不 同 的 。 特 别 地 ， 不 同 于 我 们 在 12. 6 节 所 做 的 对 转移 概率 和 
相 联 转 移 代价 的 显 式 估计 ， 我 们 现在 做 如 下 事情 ， 

利用 Monte Carlo 估计 来 生成 一 个 或 多 个 系统 轨迹 使 其 逼近 一 个 给 定 策略 的 cost-to-go $ 
数 甚 至 最 优 的 cost-to-go 邑 数 ， 然 后 在 某 种 统计 意义 下 最 优化 这 个 允 近 。 

我 们 将 这 一 逼近 动态 规划 方法 称 为 非 直接 * 的 ， 以 便 和 12. 6 节 讨 论 的 直接 方法 区 分 开 来 。 
不 管 怎样 ， 假 设 模拟 动态 系统 的 状态 空间 具有 低 于 原始 动态 系统 的 维 数 。 

因此 ， 放 弃 了 最 优 性 的 概念 ， 我 们 可 以 通过 下 面 简单 的 陈述 来 给 出 非 直接 法 逼近 动态 规划 
的 目标 : 

尽 可 能 地 做 好 ， 而 不 是 更 多 。 

事实 上 ， 性 能 最 优 性 是 计算 易 处 理性 的 折 中 。 这 种 策略 正 是 人 类 大 脑 每 天 所 做 的 ， 给 定 一 
个 复杂 的 决策 问题 ， 大 脑 提 供 一 个 次 优 解 ， 它 从 可 靠 性 以 及 可 用 资源 分 配 的 角度 上 来 说 是 “最 
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有 了 Bellman 动态 规划 理论 作为 参考 的 框架 ， 逼 近 动态 规划 的 目标 可 以 陈述 如 下 : 


对 于 状态 FRERE cost-to-go 函数 J Dh AAJ, w), ARDAJ (i) 一 j (i， 
WwW) 根据 某 种 统计 准则 最 小 化 。 | 

有 了 这 两 个 县 标 ， 我 们 现在 有 两 个 基本 问题 : 

问题 1: FER AU ay BERRI IE BW J Gw)? 

问题 2， CARR T BR BRIG WWE. WA Bie WALA Ta w 来 为 Bellman 方程 的 最 
优 性 提供 “最 好 匹配 ”? 

为 了 回 到 问题 1， 我 们 有 线性 和 非 线性 通 近 函数 的 选择 ， 这 反 过 来 也 决定 了 问题 2 的 管 
案 。 下 面 首 先 考虑 线性 方法 ， 然 后 讨论 非 线性 方法 。 
允 近 动态 规划 的 线性 方法 

在 这 一 方法 中 ， 通 常 的 做 法 是 将 遂 近 隔 数 J(i,w) 表 示 为 参数 向 量 w 的 线性 函数 ， 即 

Jw) = Dew, = pw 对 于 所 有 的 i (12. 59) 


其 中 @, 是 预 编 的 基 范 数 或 特征 ， 由 逼近 方案 的 设计 者 选择 。 式 (12. 59) 的 逼近 在 图 12.8 中 
说 明 。 
特征 则 量 


状态 :的 - (i) 线性 映射 器 逼近 代价 
代价 函数 特征 提取 器 权 值 向 量 w pw 


Ji) 
图 12.8 通 近 动态 规划 线性 方法 的 结构 布局 


逼近 动态 规划 的 线性 方法 有 如 下 优点 : 

Ci) 从 数学 上 线性 函数 逼近 器 是 容易 形成 和 分 析 的 ; 所 以 ， 逼近 器 的 内 在 行为 也 是 一 样 
容易 理解 的 。 

(ji 通常 ， 线 性 逼近 器 的 数学 形式 提供 了 对 实际 操作 中 可 能 发 生 错 误 的 观察 ， 因 而 使 其 
易于 修正 可 能 发 生 的 错误 。 

CHO 在 真实 cost-to-go 函数 中 的 非 线性 性 可 以 通过 特别 选择 的 基 画 数 来 逼近 地 获得 ， 这 
些 基 函数 能 通过 手头 的 动态 规划 问题 的 直 党 来 构造 。 

Civ) 尤其 是 ， 线 性 规划 是 相对 容易 执行 的 。 

对 于 点 〈 六 )， 必 须 注意 的 是 好 的 基 函 数 的 选择 可 能 在 实际 中 是 很 困难 的 。 

式 (12. 59) 的 选择 为 线性 方法 的 问题 1 提供 了 答案 。 作 为 问题 2 的 回答 ， 通 常 被 用 于 为 
Bellman 方程 的 最 优 性 提供 最 佳 匹 配 的 是 最 小 二 乘法 ， 这 在 第 2 章 讨论 过 。 在 第 12.10 W, R 
们 将 描述 实现 这 一 问题 的 一 个 途径 '。 
逼近 动态 规划 的 非 线 怀 方 法 

除了 其 上 述 吸 引 点 外 ， 带 近 动态 规划 的 线性 方法 被 认为 是 一 种 实现 更 高 目标 的 有 用 的 踏 肢 
石 法 (stepping-stone)， 通 过 下 面 考 虑 的 一 般 情形 来 考虑 : 

认识 到 在 实际 中 遇 到 的 多 个 动态 环境 本 质 上 是 非 线性 的 ， 远 近 动 态 规划 将 不 仅 其 自身 是 非 
线性 的 ， 也 需要 以 “任意 期 望 精 确 度 ” 来 逼近 “任意 ” 非 线性 动态 环境 。 

换 句 话说 ， 这 里 提倡 的 作为 问题 1 的 回答 的 非 线性 方法 是 一 个 通用 逼近 器 (universal ap- 


proximator) Ai VE eR. 
Ai Ag SF Se SS EK (RBF) 的 讨论 我 们 知道 这 些 网 络 都 是 通用 通 近 
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器 。 而 且 ， 第 15 章 将 要 讨论 的 循环 多 层 感 知 器 也 是 通用 逼近 器 。 给 定 这 样 的 网 络 的 广泛 选择 ， 
我 们 循环 多 层 感 知 器 为 非 线 性 训 近 动态 规划 系统 的 最 优 设计 提供 了 实际 基础 ， 这 样 说 是 基于 如 
下 两 个 重要 理由 : 

1. 不 同 于 具有 单个 非 线 性 隐藏 层 和 线性 输出 层 的 浅 结构 (shallow architecture) (UW RBF 
网 络 为 例 )， 循 环 多 层 感 知 器 可 以 被 设计 为 具有 两 个 或 更 多 个 隐藏 屋 。 通 过 一 层 馈 给 其 他 层 ， 
循环 多 层 感 知 器 具有 “从 特征 学 习 特 征 ” 的 性 质 ， 由 是 底层 特征 被 累进 地 组 合 到 更 抽象 和 更 高 
层 的 表达 中 。 在 Bengio and LeCun (2007) 中 ,提出 深度 结构 (deep architecture) 具有 以 非 
局 部 方式 〈 即 在 中 间 邻 居 之 外 ) 泛 化 的 潜力 ， 这 样 的 性 质 在 应 用 于 高 度 复杂 任务 的 机 器 学 习 算 
法 设计 的 进展 中 具有 决定 性 意义 。 

2. 循环 多 层 感知 器 具有 内 在 多 种 方式 的 全 局 反馈 〈 即 包括 两 个 或 多 个 网 络 层 ) 。 这 里 ， 我 
们 需要 提醒 自己 大 脑 系 统 具有 内 在 的 丰富 的 全 局 反馈 。 特 别 地 ， 在 大 脑 中 的 不 同 区 域 几 乎 总 是 
存在 反馈 连接 ， 这 些 连 接 至 少 和 前 馈 连 接 一 样 多 (Churchland and Sejnowski，1992) 。 例 如 ， 
从 主 视觉 皮层 回 到 外 侧 膝 状 核 (LON) 的 循环 投影 是 从 LGN 到 主 视觉 皮层 的 前 向 投影 的 大 约 
10 倍 * 。 因 此 视觉 系统 具有 强大 能 力 是 不 奇怪 的 ， 而 大 脑 的 马达 控制 、 听 党 以 及 其 他 部 分 都 是 
如 此 。 鉴 于 我 们 所 知道 的 关于 大 脑 系 统 的 知识 ， 我 们 可 以 肯定 全 局 反馈 是 计算 智能 的 服务 
商 一 一 循环 神经 网 络 作为 逼近 动态 规划 系统 模拟 的 候选 神经 网 络 具有 实际 重要 性 。 

比较 循环 多 层 感知 器 和 通常 的 多 层 感 知 器 ， 我 们 发 现在 考虑 结构 深度 的 范围 内 它们 共享 第 
1 点 。 然 而 ， 全 局 反馈 的 性 质 2 使 得 循环 多 层 感知 器 要 好 于 通常 的 多 层 感知 器 ， 问题 在 于 如 何 
以 最 有 效 的 方式 构造 网 络 的 前 馈 和 反馈 连接 。 

现在 我 们 已 经 回答 了 逼近 动态 规划 非 线性 方法 的 问题 1， 下 面 我 们 处 理 问题 2， 是 关于 如 


何 自 适应 逼近 函数 Ji,w) 中 的 权 值 向 量 w 来 为 Bellman 方程 的 最 优 性 提供 最 优 匹配 。 现 在 能 
够 做 如 下 陈述 : 


循环 多 层 感 知 器 的 监督 训练 能 通过 利用 无 导数 的 非 线性 序列 状态 估计 算法 来 最 有 效 地 

通过 采用 这 样 的 监督 学 习 方法 ， 我 们 不 再 需要 考虑 决策 系统 的 非 线 性 是 如 何 发 生 的 。 因 
而 ， 在 这 种 情况 下 ， 将 在 14 章 讨 论 的 无 导数 非 线 性 序列 状态 估计 算法 ， 变 得 尤其 重要 。 序 列 
状态 估计 算法 用 于 循环 多 层 感知 器 〈 或 者 对 这 一 问题 的 普通 多 层 感知 器 ) 的 监督 训练 将 在 第 
15 章 中 讨论 。 
12.10 ”最 小 二 乘 策 略 评估 

作为 允 近 动态 规划 的 第 一 个 非 直 接 法 ， 我 们 讨论 一 个 称 为 最 小 二 腾 策 略 评估 (least-squares 
policy evaluation) 的 算法 ， 或 者 简 记 为 LSPEG) 算 法 。 在 LSPE() 中 4 扮演 着 和 TD(CX) 中 的 4 相 
似 的 角色 。 

LSPE(CA) 背 后 的 基本 思想 可 以 总 结 为 : 

EH- BK BRK RRA SP TMK. 

具体 来 说 ， 令 * 记 表 示 状 态 ; 的 特征 向 量 ©, 的 维 数 。 我 们 可 以 定义 NXs 矩阵 


中 了 


T 
o = oi (12. 60) 


qh 
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令 T 记 对 于 策略 p 代价 丁 作为 唯一 国定 点 的 映射 ， 且 令 开 记 由 和 气 阵 积 O, 定义 的 子 空间 上 的 投 
影 (以 合适 的 形式 )， 其 中 w 是 具有 维 数 * 的 参数 向 量 。 以 模拟 作为 LSPE(4) 算 法 的 基础 ， 我 
们 可 以 给 出 如 下 的 分 析 性 描述 (Bertsekas, 2007): 
Dw = 07 (Ow,) + WORF) (12. 61) 

算法 的 构成 使 得 随 着 迭代 数 n FT ERR LSI 0。 
背景 和 假设 

考 虚 一 个 固定 状态 马尔 可 夫 链 ， 其 状态 记 为 i 一 1,2,…,N， 由 稳定 策略 y 控制 。 我 们 可 将 
式 (12. 5) 重 写成 这 样 的 形式 : 


JO = E Drei) lin = i| 
其 中 是 时 间 半 时 的 第 ; 个 状态 ，y IU, gG i FEDORAS i Bi MPR. A 
着 线性 结构 的 思想 ， 代 价 JG) 如 下 通 近 : 
TG ~JG.w) =w (12. 62) 
特征 向 量 四 (i) 假 设 为 维 的 ， 则 权 值 向 量 w 也 必然 具有 相同 的 维 数 。 感 兴趣 的 问题 是 在 如 下 
子 空 间 中 逼近 参数 化 代价 JG w: 


9 一 (@GwlwE R`} (12. 63) 
这 一 空间 是 由 矩阵 D IKRA. REER Ow 的 维 数 等 于 可 能 的 状态 数 N. 
我 们 立刻 做 两 个 假设 : 
1. 马尔 可 夫 链 具有 正 的 稳定 状态 概率 ; 即 
lim DP = jli = 1) = mj >0 对 于 所 有 的 i (12. 64) 


这 一 假设 的 意义 是 马尔 可 夫 链 具有 单一 循环 类 而 没有 瞬 变 状态 。 
2. 矩阵 D 的 秩 是 ;。 
第 二 个 假设 的 含义 是 特征 矩阵 © 的 列 以 及 因此 通过 Ow 表示 的 基 函 数 是 线性 独立 的 。 





策略 评估 的 投影 值 选 代 
带 着 值 先 代 的 思想 ， 我 们 可 以 用 式 (12. 20) 和 式 (12. 29) 来 写 
N 
TID = PDH), i=1,2N (12. 65) 
其 中 T 记 一 个 上 映射。 现在， 令 
[ Dy pig ss) | 
Spe j) 
g=|4 (12. 66) 
X pue (Nos) 
[pu Pe Pin 
p= jeu Pe Pon (12. 67) 
[pn Pna Pn 





以 及 
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CN) 
~ Ow (12. 68) 
其 中 利用 了 式 (12. 62) EA. RATT Ae g 本 和 随机 矩阵 了 重 写 式 (12. 65) WK 
姿 形式 





TJ= g++7YPJ (12. 69) 
Be ATT ML CELI FEY E GET ARO ER 
Jian STJ 
E be RR HEF SIPS ALS TERRI. A. RAIRA. 68) ， 可 以 写 
Ow, = LT Cbw,), = 0,1,2,. (12. 70) 


其 中 ， 如 前 所 述 ， 中 记 到 子 空间 8 上 的 投影 。 式 (12. 70) RR WRB RR (PVD WR, HA 
质 可 以 陈述 如 下 : 





ERR n, BHR, Ow, 被 施 以 映射 且 新 的 向 Tw, -eyeow, 
ZT Ow 被 投影 到 子 空间 FF 上， 从 而 产生 更 新 的 移 sis see 
代 Ow, +1 ow, 
图 12.9 图 示 了 PVI 方法 。 0 jw 
PVI 方 法 可 以 被 看 成 是 解 Bellman 方程 的 值 迭 代 方 
法 的 投影 或 者 逼近 形式 。 在 Bertsekas (2007) 中 描述 子 空间 9 
了 如 下 的 发 现 ， 图 12.9 BRER (PVD 方法 的 图 示 


1. 映射 T 和 7 了 是 对 加 权 欧 几 里 得 范 数 || > I. 的 模 数 的 收缩 〈contraction) ， 其 中 m, mots smn 
(表示 马尔 可 夫 链 的 稳定 状态 概率 ) 扮演 着 定义 欧 几 里 得 范 数 时 的 伸缩 因子 的 角色 。 

2. PER Ow 是 权 值 向 量 w 的 映射 呆 了 的 唯一 固定 点 。 (在 当前 讨论 的 背景 中 ， 当 我 们 
说 固定 点 时 ， 我 们 的 意思 是 一 个 解 ， 即 向 量 w WERIT w =w.) 

因此 可 以 说 PVI 方 法 是 逼近 Bellman 方程 的 分 析 方 法 。 

然而 ， 除 了 好 的 点 之 外 ，PVI 方法 有 两 个 严重 的 缺陷 : 

1. 如 果 Ow 具有 维 数 N， 变 换 向 量 7T(@w,) 是 一 个 N 维 向 量 ， 因 此 ， 对 于 N 很 大 时 的 大 
规模 应 用 而 言 ， 方 法 的 计算 复杂 度 变 得 不 可 控制 。 

2. 向 量 T(@Bw,) 到 子 空间 9 的 投影 需要 稳定 状态 概率 zo,x2，… ,xw 的 知识 。 通 常 ， 这 些 概率 
是 未 知 的 。 

幸运 的 是 ， 这 两 个 缺点 可 以 通过 利用 Monte Carlo 模拟 法 来 减轻 。 
从 投影 值 迁 代 到 最 小 二 乘 策略 评估 

对 投影 开 利 用 最 小 二 乘 最 小 化 ， 可 以 将 式 (12. 70) 表 示 为 下 面 的 形式 : 


wa = arg min || Bw — 7(@w,) || 2 (12. 71) 
等 价 地 ， 可 以 将 PVI 算法 的 最 小 二 乘 方案 表示 为 如 下 形式 ， 
Wor = arg min D(H Dw (Spe Gs) + 7b" Cw,)) (12. 72) 


为 了 从 实际 上 完成 式 (12. 72) 的 最 优化 ， 我 们 提出 通过 利用 Monte Carlo 模拟 法 来 逼近 ， 对 状态 ; 
生成 无 限 长 的 轨迹 (i ,i sige), FERRE PIRATE UGE Gt) 后 更 新 权 值 向 量 w : 
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ee (]2. 73) 
由 于 明显 的 理由 ， 一 递归 称 为 最 小 二 乘 策略 评 







EAR 
i, RAMEN LSPE, MM 12. 16 Hom, Lame | T(@w,) =2+7POw, 
HWA RAH A eA ie) FRR TY oo RR | 到 的 投影 





声 的 PVL SOLE FR 
而 且 ， 由 于 联合 映射 了 的 收缩 性 质 和 模拟 0 War 
噪声 的 渐进 减少 特性 ，LSPE KAA PVI 的 相同 ow, 
极限 ， 即 ， 满 足 如 下 国定 点 方程 的 唯一 权 值 向 子 空间 
Btw": 图 12. 10 AREER (PVD 随机 方案 的 
Dw = Il 7T( Ow" ) (12. 74) 最 小 二 乘 策略 评估 (SPE) 的 图 示 
LSPE(A) 
以 与 第 12.7 节 中 介绍 TDGA) 的 相似 的 方式 ， 我 们 引入 时 序 差分 (参看 式 (12. 34)): 
d, Gisin) = gim) HYO Ga DW, — G w, (12. 75) 
相应 地 ， 可 以 表示 基于 模拟 的 LSPE(4) 算 法 如 下 : 
Wi! = arg min X) (7 (iOw— PTC) Ww, 一 Doar "AT Cin sigs) (12. 76) 


其 中 @ sivgin se) 是 由 Monte Carlo 模拟 法 生成 的 无 限 长 轨迹 。 用 语言 表述 : 

在 LSPE(A) 算 法 的 第 ntl 次 选 代 ， 更 新 权 值 向 量 Ww HABEAS w 的 特殊 值 来 计算 ， 
它 最 小 化 下 列 两 个 量 之 间 的 最 小 二 来 差 : 

。 逼近 代价 函数 J (ii) 的 内 积 中 7 (is)w; 

。 时 序 差分 的 对 应 部 分 


PT (i, w,, + 5 Cy)" dp, Gin stint) 

这 是 对 上 二 0,1,…,n 由 单个 模拟 轨迹 中 提取 得 到 的 。 

注意 权 值 向 量 w, 的 当前 值 在 完成 式 (12.76) 的 最 小 二 乘 最 小 化 的 每 次 选 代 时 保持 为 常数 。 

LSPE(1) 的 通 近 性 质 归 于 两 个 因子 : 

L 估计 稳定 状态 概率 n 和 转移 概率 py 时 ， 使 用 基于 模拟 的 实验 频率 。 

2. 为 逼近 PVI 方 法 在 式 (12.76) 中 利用 时 序 差 分 的 有 限 折扣 和 。 

无 论 如 何 ， 随 着 迭代 数 n 趋 于 无 穷 ， 实 验 频 率 收敛 于 真实 概率 且 有 限 折 扣 和 收敛 到 无 限 折 
扣 。 所 以 ，LSPE(4) 算 法 以 渐进 的 意义 收敛 到 其 PVI 部 分 。 

下 面 关 于 LSPE(A) 算 法 的 收敛 行为 的 具 洞 察 力 的 备注 是 尤其 值得 注意 的 : 

LEPSCA) 算 法 由 快速 收敛 的 确定 性 分 量 和 慢 慢 收敛 到 0 的 随机 分 量 组 成 ， 在 算法 的 早期 选 
代 阶 段 确定 性 分 量 支配 了 随机 波动 。 

一 陈述 是 通过 Bertsekas 等 (2004) 的 计算 机 模拟 证 实 的。 特别 地 ， 那 里 所 示 的 结果 说 
H LSPE(N) 算 法 对 OSA<1 是 真正 可 靠 的 算法 ， 它 收敛 快 ， 性 能 可 靠 。 一 般 来 说 ， 选 择 靠近 1 
的 4 提高 计算 精确 度 ( 即 ， 使 得 矩阵 积 中 (i)w' 靠近 J (i))， 但 增加 了 模拟 噪声 的 影响 ， 因 而 
需要 更 多 的 样本 和 更 长 的 轨迹 来 达到 收敛 。 
12.11 逼近 策略 和 迭代 


LSPE 算法 为 逼近 动态 规划 提供 了 有 力 的 线性 方式 。 在 本 节 中 ， 我 们 描述 利用 神经 网 络 作 
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为 通 近 动态 规划 非 线性 方法 的 工具 。 为 此 ， 假 设 有 一 个 动态 规划 问题 ， 它 的 可 能 状态 数目 和 人 多 
许 的 行动 数目 非常 大 ， 使 得 利用 传统 处 理 方法 是 不 现实 的 。 假 如 我 们 有 该 系统 的 模型 ， 即 转移 


概率 py (a) 和 观察 代价 g(i,a,7) 都 是 已 知 的 。 为 了 处 mie 
理 这 种 情况 ， 我 们 基于 下 面 所 述 的 Monte Carlo 模拟 和 PC, wy 





最 小 二 乘法 提出 使 用 策略 迭代 的 近似 。 

图 12. 11 给 出 逼近 策略 选 代 算法 的 简化 框图 。 在 | 用 于 逼近 策略 
图 12. 3 中 的 策略 评估 步骤 由 它 的 一 个 逼近 所 替代 。 因 
此 逼近 策略 迭代 算法 交替 进行 如 下 的 逼近 策略 评估 步 
又 和 策略 改进 步骤: 

1. BERBER, ABYMAM w， 对 所 有 ”转移 概率 
状态 i 的 实际 cost-to-go 函数 J* ORAE Hie, Bo 图 12. 11 逼近 策略 迭代 算法 框图 
cost-to-go 函数 J*(i,w)。 向 量 w 是 完成 逼近 的 神经 网 络 参数 。 

2. 策略 改进 步 双 。 利 用 逼近 cost-to-go 函数 产 (i,w) 产 生 改 进 的 策略 yx。 对 所 有 i， 新 策略 
设计 对 J*(i,w) 是 贪心 的 。 

为 了 逼近 策略 迭代 算法 产生 满意 解 ， 仔 细 挑 选 策略 初始 化 算法 非常 重要 。 这 可 利用 启发 式 
思想 完成 。 或 者 可 以 从 某 个 权 值 向 量 w 开始 ， 用 它 导 出 一 个 贪心 策略 ， 接 着 利用 该 策略 为 初始 
策略 。 

假设 除 知道 转移 概率 和 观察 代价 之 外 ， 我 们 有 如 下 几 项 : 

。 一 个 稳定 的 策略 u 作为 初始 策略 。 

。 -一 个 状态 集 吧 代表 运行 环境 。 

。 对 于 每 个 CX, cost-to-go 函数 (让 的 M(i) 个 样本 组 成 的 集合 ; 一 个 这 样 的 样本 记 

H klim), EP m=1,2, MO. 
神经 网 络 的 参数 向 量 w 利用 最 小 二 乘法 决定 ， 即 最 小 化 代价 函数 : 


MO) 


BW = N >) Gw — Gw (12.77) 


fe m=1 


改进 





在 确定 最 优 权 值 向 量 w 从 而 有 逼近 cost-to-go 函数 J*(i,w) 之 后 ， 下 面 确 定 通 近 Q -因子 。 为 
此 ， 我 们 利用 式 (12. 20) 和 式 (12. 23) 来 通 近 Q -因子 ， 
QGiaw) = 3) py (a) (gGira.j) +" Gaw) (12. 78) 


其 中 py (4) 为 在 行动 a( 已 知 ) 下 从 状态 :到 状态 7 的 转移 概率 ，g (i,a,j) 是 观察 代价 (也 为 已 
知 ) ， 而 y 是 规定 的 折扣 因子 。 根 据 下 列 公式 ， 通 过 使 
用 这 些 逼 近 Q -因子 确定 一 种 改进 策略 以 完成 欠 代 〈 参 
@ (12. 28) ) : 

pC) = arg min Q(i,a,w) (12. 79) 


注意 ， 式 (12. 76) 和 式 (12. 77) 仅 被 模拟 器 用 在 由 模拟 实 
际 访问 的 状态 而 不 是 在 所 有 状态 产生 行动 。 正 因为 如 6。 
此 ， 这 两 个 公式 没有 受到 维 数 灾 的 影响 。 PGW) 
图 12. 12 给 出 一 个 逼近 策略 迭代 算法 的 更 加 详细 的 
框图 。 这 个 框图 由 四 个 互 连 的 模块 组 成 〈Bertsekas and 
Tsitsiklis, 1996), 
1. 模拟 器 ， 它 利用 给 定 的 对 状态 转移 概率 和 观察 到 的 一 步 代 价 构建 环境 的 一 个 替代 模型 。 








图 12.12 逼近 策略 迭代 算法 详细 设计 
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模拟 器 产生 两 类 东西 : Ca) 模拟 环境 的 行动 进行 响应 的 状态 ，(b) 对 给 定 策略 u 的 cost-to-go 
函数 抽样 。 

2. 行动 发 生 器 ， 它 根据 式 (12. 77) 产 生 一 个 改进 策略 〈 即 一 系列 行动 ) 。 

3. cost-to-go 逼近 器 ， 它 对 状态 i 和 参数 向 量 w 产生 在 式 (12.76) 和 式 (12.77) 中 使 用 的 逼 
近 cost-to-go 函数 J*(i,w)。 

4, 最 小 二 乘 求解 器 ， 它 利用 由 模拟 器 对 策略 w 和 状态 i 提供 的 cost-to-go 函数 J” G) WF 
本 ， 计 算 使 式 (12. 75) 的 代价 函数 最 小 化 的 参数 向 量 w。 只 有 充分 评估 一 个 策略 和 确定 一 个 最 
优 参数 向 量 w 之 后 ， 才 能 启动 从 最 小 二 乘 求解 器 到 cost-to-go 逼近 器 的 连接 。 此 时 ， 由 J*(i， 
w* ) 替 代 cost-to-go 通 近 J* (i,w)。 

表 12. 3 给 出 通 近 策略 迭代 算法 的 小 线 。 

表 12.3 逼近 策略 和 迭代 算法 


已 知 参 数 : 转移 概率 py (4) 和 代价 函数 glisasj)a 

计算 : 

1. 选择 一 个 稳定 策略 w 作为 初始 策略 。 

2. 使 用 由 模拟 器 产生 的 cost-to-go 函数 产 (的 样本 集 {&(Ciyza) )%2i ， 确 定神 经 网 络 用 作 最 小 二 乘 求 解 器 的 参数 向 量 w。 


MQ) 
w* = min€(w) = min) >) (AG m) — JeGisw))? 
w W i€¥m=1 





























3. 根据 第 2 步 决定 的 最 优 向 量 w* ， 对 访问 的 状态 计算 通 近 cost-to-go BM jx G,w'). WE Q -因子 ， 
Qisasw*) = J, py (a) (glivas)) + I" Gow’ )) 
jee 
4. 确定 改进 策略 
pi) = arg min Q(i,a.w* ) 
ae 
5. 重复 第 2 步 至 第 4 步 。 
注 ; 第 3 步 和 第 4 步 仅 在 实际 访问 的 状态 而 不 是 所 有 状态 上 应 用 。 


很 自然 ， 这 个 算法 的 运行 会 有 误差 ， 产生 误差 是 由 于 模拟 器 和 最 小 二 乘 求 解 器 的 设计 有 不 
可 避免 的 缺点 。 对 期 望 的 cost-to-go 函数 进行 最 小 二 乘 逼 近 的 神经 网 络 可 能 缺乏 适当 的 计算 能 
力 ， 因 而 成 为 第 一 个 误差 源 。 神 经 网 络 逼 近 器 的 最 优化 和 由 此 而 来 的 参数 向 量 w 的 调整 是 基于 
模拟 器 提供 的 期 望 反应 ， 因 此 成 为 第 二 个 误差 源 。 假 设 所 有 的 策略 评估 和 策略 改进 是 分 别 在 e 
和 8 一 定 的 误差 容许 限度 内 完成 的 ，Bertsekas and Tsitsiklis (1996) 中 证 明 逼 近 策略 迭代 算法 
所 产生 的 策略 和 最 优 策略 的 性 能 之 间 差 异 的 因子 随 e 和 6 降低 而 趋 于 零 。 换 句 话说， 逼近 策略 
算法 具有 最 小 性 能 (差异) 的 可 靠 保证 。 根 据 Bertsekas and Tsitsiklis (1996), ， 逼 近 策 略 和 迭代 
算法 初始 阶段 能 够 取得 迅速 而 且 十 分 单调 的 进展 ， 但 在 极限 情况 下 一 个 随机 性 的 持续 的 策略 振 
葛 可 能 发 生 。 这 种 振 葛 行 为 出 现在 逼近 cost-to-go MRK J BARA I” 的 区 域 OC(C6 十 2ye)/(1 
一 7)2) 内 之 后 ， 其 中 > 为 折扣 参数 。 对 所 有 逼近 策略 迭代 的 变 体 ， 它 们 都 明显 地 有 导致 振荡 行 
为 的 根本 结构 。 


12.12 ”小 结 和 讨论 


本 章 前 面部 分 介绍 了 用 于 多 阶段 决策 动态 规划 的 Bellman 理论 的 详细 讨论 。 作 为 建立 在 马 
尔 可 夫 决 策 过 程 上 的 稳定 策略 ， 这 一 理论 依赖 于 环境 显 式 模型 的 有 效 性 ， 该 模型 包含 了 转移 概 
率 和 相连 代价 。 我们 还 讨论 了 用 于 求解 Bellman 方程 最 优 性 的 策略 选 代 和 值 迭 代 这 两 种 方法 。 
逼近 动态 规划 : 直接 方法 

动态 规划 是 强化 学 习 的 核心 。 本 章 中 通过 利用 动态 规划 来 推导 两 个 在 强化 学 习 文献 中 广 为 
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人 知 的 无 模型 的 在 线 学 习 算法 : 

。 时 序 差分 (TD) %3. H Sutton (1988) 提出 。 

。 QQ -学 习 ， 由 Watkins (1989) 提出 。 

由 于 是 无 模型 的 ， 这 两 个 算法 都 避免 了 转移 概率 的 需要 。 然 而 ， 存 储 的 局 限 限 制 了 它们 在 
决策 问题 上 的 实际 使 用 ， 只 能 用 于 中 等 大 小 的 状态 空间 。 

通 近 动态 规划 ， 非 直接 方法 

在 本 章 的 后 面部 分 ， 我 们 讨论 了 有 实际 重要 性 的 问题 : 称 为 维 数 灾难 的 问题 。 在 解决 大 规 
模 决策 问题 时 遇 到 的 这 一 问题 使 得 Bellman 动态 规划 变 得 坊 手 。 为 了 克服 这 一 困难 ， 我 们 可 以 
VRE ABU AMY. CEE Bellman 理论 基础 上 。 非 直接 逼近 动态 规划 可 以 通过 如 下 
两 种 途径 中 的 一 个 来 执行 ， 

lL. 线性 构造 方法 ， 包 括 两 个 步骤 ， 

。 状态 i 的 特征 提取 

。 代价 J (i,w) 的 最 小 二 乘 最 小 化 ， 其 中 w 是 和 状态 i 相连 的 权 值 向 量 

我 们 通过 推导 最 小 二 乘 策略 评估 (LSPE) 算法 说 明了 这 一 方法 的 应 用 。 

2. 非 线性 构造 方法 ， 这 一 方法 的 提出 依赖 于 通用 逼近 器 的 使 用 ， 它 能 以 期 望 的 任意 精确 
度 逼 近 任 意 非 线性 函数 。 神 经 网 络 可 以 作为 通用 逼近 器 来 使 用 。 

除了 在 逼近 动态 规划 上 的 显著 进展 外 " ， 在 建立 能 够 对 大 规模 应 用 做 高 层 决策 的 系统 方面 
也 有 很 多 需要 做 的 工作 ， 这 一 系统 是 可 靠 的 并 且 计算 易 处 理 的 。 在 这 一 背景 下 ， 也 许 局 部 可 观 
测 性 问题 成 为 影响 动态 规划 的 所 有 实际 问题 的 最 大 挑战 。 

部 分 可 观测 性 

Bellman 动态 规划 理论 假设 了 完全 可 观测 系统 (fully observable system)。 更 精确 地 说 ， 
为 了 最 优 策略 解 动 态 规划 问题 ， 假 设 环境 状态 服从 马尔 可 夫 性 质 ， 在 时 间 十 1 的 状态 仅 依赖 
于 时 间 的 状态 和 策略 ， 因 而 独立 于 时 间 n 之 前 发 生 的 所 有 一 切 。 在 实际 中 因为 不 可 观测 状态 
的 发 生 是 不 可 避免 的 ， 所 以 经 常 违 背 这 一 严格 的 假设 。 于 是 ， 作 为 基于 马尔 可 去 决策 过 程 
(MDP) 的 模型 (Bellman 动态 规划 理论 的 基石 ) 的 替代 ， 如 果 我 们 要 使 逼近 动态 规划 理论 更 
接近 实际 现实 ， 不 得 不 处 理 部 分 可 观测 马尔 可 夫 决 策 过 程 (POMDP)。 某 种 意义 上 ， 部 分 可 观 
测 性 可 看 成 是 第 二 个 动态 规划 “ 灾 ”， 称 为 “模型 灾 ”， 意 味 着 可 观测 值 包 含 了 关于 环境 图 有 动 
态 性 的 不 完全 信息 。 我 们 因而 可 以 将 动态 规划 描述 为 “遭受 着 模型 灾 和 维 数 灾 的 全 局 最 优化 方 
法 ”。 

多 年 以 来 ，POMDP 问题 在 各 种 文献 中 被 认为 是 严重 的 问题 ， 在 包含 不 确定 下 的 规划 
(planning under uncertainty) 的 应 用 中 (如 机 器 人 〉 设置 了 主要 障碍 。 这 一 问题 是 困难 的 ， 因 
为 需要 学 习 行 动 选择 策略 ， 而 行动 选择 可 以 是 所 有 可 能 不 确定 类 型 中 的 偶然 事件 。 注 释 和 参考 
文献 的 注 记 10 中 ， 试 图 给 出 文献 中 如 何 处 理 POMDP 问题 的 研究 方向 。 
动态 规划 和 Viterbi 算法 之 间 的 关系 

这 一 章 主要 是 讲述 动态 规划 。 但 是 如 果 不 讨 论 它 和 Viterbi 算法 的 关系 ， 动 态 规划 的 学 习 
就 是 不 完整 的 ，Viterbi 算法 的 命名 是 因为 其 提出 者 Viterbi (1968) 。 实 际 上 ，Bellman 动态 规 
划 (Bellman, 1957; Bellman and Dreyfus, 1962) 比 Viterbi 的 论文 旱 好 多 年 。 这 两 个 算法 的 
等 价 性 在 Omura (1969) 中 可 以 找到 。 

在 最 优化 的 背景 下 ， 动 态 规划 试图 寻找 通过 加 权 图 的 最 短路 径 〈 如 图 12. 5 所 示 的 又 车 问 
题 图 )， 是 通过 从 目的 地 开始 一 阶段 一 阶段 回 到 起 始点 的 方式 来 实现 的 。 另 一 方面 ， 在 卷 积 解 
码 的 背景 下 ，Viterbi 算法 在 权 值 图 自身 上 工作 ， 称 为 格子 图 (trellis diagram) 。 这 个 图 表达 了 
卷 积 编码 器 的 图 形 描述 ， 可 看 成 有 限 状 态 机 器 (Lin and Costello，2004) 。 在 最 大 似 然 意义 下 
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Viterbi 算法 对 于 卷 积 编码 的 最 优 性 在 Forney (1973) 中 认识 到 。 
注释 和 参考 文献 


1. 强化 学 习 的 传统 处 理 方法 植 根 于 心理 学 ， 可 追溯 到 Thorndike (1911) 关于 动物 学 习 时 期 的 工作 和 Pavlov 
(1927) 关于 条 件 反 射 的 研究 。Widrow 等 (1973) 的 工作 也 对 传统 强化 学 习 方 法 做 出 了 贡献 ; 在 那 篇 文章 
中 ， 引 和 人 了 评价 〈eritic) 的 概念 。Hampson (1990) 一 书 讨 论 了 传统 的 强化 学 习 。 

对 现代 强化 学 刁 的 主要 贡献 包括 Samuel (1959) 有 关 他 的 著名 的 柑 子 游戏 程序 的 工作 ，Barto 等 
(1983) 关于 自 适 应 评价 系统 的 工作 ，Sutton (1988) 关于 时 序 差 分 〈temporal difference) 方法 的 工作 和 
Watkins (1989) 关于 Q -学 习 的 工作 。 在 Sutton and Barto (1998) 的 书 中 给 出 了 强化 学 习 的 细节 。 

在 神经 生物 学 背景 下 ， 报 酬 信号 由 称 为 多 巴 膀 神经 元 的 中 脑 神 经 元 处 理 。 为 了 详细 地 说 明 ， 在 Schultz 
(1998) 中 报告 了 一 系列 实验 操作 性 条 件 反射 被 用 于 训练 猴子 对 刺激 〈 如 ， 光 和 声音 ) 的 反应 。 为 了 得 到 以 
食物 或 饮料 形式 的 报酬 ， 猴 子 必 须 释 放 一 个 键 ， 然 后 按 另 一 个 键 。 多 巴 胺 的 活动 性 结果 在 每 次 试验 的 20 次 
KAFEE., Schultz 获得 的 结果 揭示 多 巴 膀 神经 元 确实 在 刺激 发 生 和 报酬 交付 后 激发 。 有 了 Schultz 的 值 
得 关注 的 发 现 ， 我 们 如 何 对 其 建 模 ? 将 多 巴 胺 神经 元 看 成 “报酬 系统 的 视网膜 "， 可 以 考虑 将 多 巴 胺 神经 元 
产生 的 响应 作为 Pavlovian 条 件 反 射 和 TD -学 习 的 教师 信号 (Schultz, 2007; Iszhikevich, 2007b); 然而 需 
要 注意 的 是 TD -学 习 的 有 关 形 式 是 TD(A) 而 不 是 TD(0)， 这 两 者 都 在 12. 7 节 中 讨论 过 了 。 

作为 最 后 的 备注 ; 在 强化 学 习 文 献 中 考虑 TD -学 习 时 ， 报 酬 是 最 大 化 的 。 相 反 ， 在 动态 规划 中 考虑 癌 
FE PENT, cost-to-go 函数 是 最 小 化 的 。 

2. 本 书 在 随机 环境 的 一 般 背 景 下 讨论 了 动态 规划 。 因 而 重新 给 本 章 取 个 “随机 动态 规划 ”的 题 且 是 有 了 吸引 力 
的 。 然 而 ， 没 有 那样 做 ， 因 为 “动态 规划 ”为 工作 于 这 一 领域 的 研究 者 描述 了 合适 的 领域 。 

3. 策略 迭代 和 值 迭 代 是 动态 规划 的 两 个 主要 方法 。 另 外 还 有 两 个 值得 注意 的 方法 : 高 斯 - Seidel 方法 和 异步 动 
态 规 划 (Barto 等 ，1995; Bertsekas，1995b) 。 在 高 斯 - Seidel 方法 中 ， 串 行 扫描 所 有 状态 ， 每 个 状态 根据 

其 他 状态 的 最 新 代价 进行 竞争 ， 在 一 个 时 刻 只 更 新 一 个 状态 的 cost-to-go 函数 。 异 步 动态 规划 和 高 斯 - sei- 
del 的 区 别 在 于 它 没有 组 织 成 系统 化 的 依次 扫描 状态 集 。 

4. Watkin (1989) 在 他 的 博士 论文 的 第 96 页 ， 对 Q -学 习 做 如 下 评论 : 

“附录 1 给 出 这 个 学 习 方法 对 有 限 马 尔 可 夫 决 策 过 程 工作 的 证 明 。 证 明 也 表明 该 学 习 方法 会 很 快 收敛 到 
最 优 行动 - 值 函数 。 虽 然 这 是 非常 简单 的 思想 ， 但 据 我 所 知 ， 以 前 从 未 被 明显 提出 。 但 是 必须 指出 ， 有 限 马 
尔 可 夫 决 策 过 程 和 随机 动态 规划 用 于 若干 不 同 领 域 已 经 被 广泛 研究 30 多 年 了 ， 它 不 像 Monte-Carlo 方法 那 
样 以 前 无 人 考虑 过 。” 

在 对 这 些 评论 的 一 个 脚注 中 ，Barto (1995) 指出 ， 虽 然 对 状态 -行动 对 赋值 的 思想 被 Denardo 
(1967) 所 采用 ， 构 成 动态 规划 方法 的 基础 ， 但 他 们 没有 看 见 比 Watkins 的 1989 论文 更 早 的 像 Q -学 习 这 样 
用 于 估计 这 些 值 的 算法 。 

5. Watkins (1989) 给 出 Q -学 习 收 敛 定理 证 明 的 概要 ， 后 来 在 Watkins and Dayan (1992) 中 对 其 进行 了 改 
进 。Tsitsiklis (1994) 给 出 了 Q -学 习 收 和 敛 的 更 一 般 的 结果 ， 也 可 参考 Bertsekas and Tsitsiklis (1996). 

6. 通 近 动态 规划 的 早期 发 展 可 追溯 到 Werbos 在 1977 年 的 论文 ， 其 中 第 一 次 描述 了 避免 维 数 灾 的 局 发 式 动 态 
规划 思想 。 根 据 Howard (1960) ， 启 发 式 动态 规划 的 思想 是 逼近 和 迭代 过 程 的 简单 方法 ， 是 通过 可 调整 权 值 
的 网 络 的 有 监督 训练 来 实现 的 。 

现在 ，“ 通 近 动 态 规划 ”通常 被 用 于 称呼 用 到 近来 克服 Bellman 动态 规划 局 限 的 方法 。Bertsekas 
(2007) 的 书 的 第 二 卷 有 一 章 关 于 逼近 动态 规划 ， 确 定 了 通 近 的 直接 和 非 直接 方法 。 

7. 最 小 二 乘 时 序 差 分 CLSTD) 算法 
根据 Bradtke and Barto (1996) 的 LSTD 算法 ， 为 动态 规划 的 非 直 接 到 近 提 供 了 另 一 个 线性 结 爸 方法 。 
LSTD 算法 的 发 展 过 程 如 下 : 

。 基本 数 被 用 于 表达 每 一 个 状态 ，Bellman 方程 首先 被 通过 这 样 的 方式 逼近 : 输入 和 输出 观测 作为 噪声 变 
。 然后 ， 联 明 地 使 用 第 2 章 讨论 过 的 “媒介 变量 方法 ”， 使 之 避免 由 “变量 误差 ”问题 引入 的 渐进 偏 置 ， 

这 一 阶段 应 用 最 小 二 乘 方法 。 

。 用 一 种 和 第 5 章 讨 论 过 的 递归 最 小 二 乘 ‘RLS) 算法 相似 的 过 程 ， 推 导 LSTD 算法 的 相似 的 递归 执行 。 
LSTD 算法 的 原始 方案 是 对 4 一 0 来 推导 的 。 建 立 在 Bradtke and Barto 工作 基础 上 ，Boyan (2002) 扩展 
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D 算法 到 >>0。LSTD 算法 也 在 Lagoudakis and Parr (2003) 中 在 逼近 策略 迭代 的 背景 下 讨论 。 


8. 视觉 皮层 的 反馈 
主 视觉 皮层 〈 视 觉 区 域 1， 通 常 简 写 为 V1) 具有 清晰 的 解剖 层 ， 每 一 个 都 有 其 自身 的 特性 函数 。V1 和 更 


细节 


9. 逼近 


分 析 感 知 的 高 阶 视 觉 区 域 相 邻 或 相连 (Kandel 等 ，1991) 。 
Sh BER (LGN) 是 大 脑 中 处 理 视 党 的 部 分 (Kandel 等 ，1991) 。 
动态 规划 的 书 


Bertsekas and Tsitsiklis (1996) 的 经 典 书 《神经 动态 规划 》 是 关于 通 近 动态 规划 的 第 一 本 书 。Si (2004) 


的 编 


辑 版 中 给 出 了 在 学 习 和 逼近 动态 规划 CADP), ADP 中 的 技术 进步 及 其 应 用 下 这 一 课题 的 广泛 讨论 。 


10. 部 分 可 观测 性 
在 部 分 可 观测 环境 下 规划 的 问题 是 非常 困难 的 。 下 面 文献 的 简短 列举 试图 为 这 一 高 度 挑 战 性 领域 的 研究 者 
提供 有 趣 的 方向 : 


(1) 


(2 


ww 


(3 


VY 


(4) 


习题 


分 层 方法 “在 部 分 可 观测 环境 下 的 规划 可 以 简化 为 将 一 个 困难 任务 分 解 为 多 层 简 单 规划 问题 ， 这 样 
的 技术 可 以 看 成 是 工程 上 广为人知 的 “分 步 解 决 ” 范 例 的 应 用 。Charlin 等 〈2007) 研究 了 这 一 问 
题 ， 通 过 将 分 层 策略 的 最 优化 作为 容易 处 理 的 一 般 非 线性 求解 器 的 非 凸 最 优 问题 来 自动 揭示 分 级 
结构 。 

Guestrin and Gordon (2002) 中 描述 了 协作 多 智能 体 动态 系统 POMDP 的 分 层 分 解 的 另 一 种 方 
法 。 在 规划 和 执行 阶段 ， 计 算 在 智能 体 中 分 布 ， 每 个 智能 体 只 需要 模型 化 和 规划 系统 的 很 小 一 部 分 。 
子 系统 通过 分 级 结构 联系 在 一 起 ， 这 个 结构 通过 消息 传递 算法 在 智能 体 间 处 理 配 位 和 通信 ; 这 样 就 能 
得 到 全 局 一 致 规划 。 另 一 个 消息 传递 算法 允许 结果 策略 的 执行 。 

POMDP 值 送 代 POMDP 的 最 优 策略 可 以 通过 记 为 J(b) 的 cost-to-go 函数 来 表示 。 这 个 函数 将 信 度 
状态 (belief state) b (表示 在 可 能 真 的 但 不 可 观测 的 世界 构 型 上 的 后 验 分 布 ) 映射 到 最 优 策略 能 得 到 
的 总 返回 值 的 估计 ， 假 设 b 是 正确 的 信 度 状态 。 尽 管 不 可 能 精确 地 计算 cost-to-go MRM (Sondik, 
1971)， 但 很 多 作者 提出 了 还 近 它 的 算法 。 特 别 地 ， 称 为 基于 点 (point-based) 的 算法 表明 了 潜在 的 
保证 ‘Smith，2007)。 这 些 算法 在 信 度 的 离散 样本 上 估计 J(b) 的 值 和 梯度 ， 通 过 利用 J](b) 的 凸 性 泛 
化 到 任意 的 信和 度 。 信 度 样 本 可 以 通过 模拟 POMDP 得 到 可 达 信 度 的 树 来 获得 ， 也 可 以 通过 利用 在 随机 
选取 的 或 在 网 格 上 放置 的 样本 填充 可 能 信 度 的 单 通道 获得 。 

信 度 压缩 “在 实际 的 POMDP 问题 中 ， 大 多 数 “ 信 度 ” 状 态 是 不 太 可 能 的 。 更 重要 的 是 ， 在 高 维 信 度 
空间 中 包含 着 貌似 真实 的 信 度 的 结构 化 低 维 流 形 。Roy and Gordon (2003) 介绍 了 一 个 新 的 称 为 “ 信 
度 压 缩 ” 的 方法 来 解 大 规模 POMDP 问题 ， 它 利用 了 信和 度 空 间 的 稀 朴 性 。 特 别 地 ， 信 和 度 空间 的 维 数 可 
以 通过 利用 指数 族 主 分 量 分 析 (Collins 等 2002) 来 删 减 。( 在 第 10 章 中 讨论 了 可 微 流 形 。) 

自然 策略 梯度 ”在 大 规模 MDP 逼近 规划 直接 策略 梯度 方法 中 ， 动 机 是 通过 未 来 返回 值 的 梯度 在 策略 
的 有 限 类 中 找到 好 的 策略 y。Kakade (2002) 讲述 了 基于 参数 空间 固有 结构 表示 最 速 下 降 方向 的 自然 
梯度 方法 。 和 策略 迭代 的 联系 是 通过 证 明 自 然 梯 度 朝 向 选择 贪心 策略 行动 的 移动 来 建立 的 。 (Amari 
自然 梯度 在 第 lo 章 中 讨论 过 了 .) 





Bellman 最 优 准 则 


12.1 


当 折扣 因子 y 接近 于 1 时 ，(12. 22) 中 cost-to-go 函数 的 计算 变 长 。 为 什么 ?说明 你 的 回答 的 理由 。 


12.2 在 本 题 中 我 们 给 出 由 Ross (1983) 得 到 的 关于 Bellman 最 优 性 方程 (12. 22〉 的 男 一 个 证 明 。 


(a) 令 r 为 任意 策略 ， 假 设 x 在 时 间 步 0 选择 行动 a 的 概率 为 pb。 ，aE A:。 那 么 
O= Yyp. (Céad + Yay ww) 
其 中 WORKA le 1 以 前 的 ostto go RENSA, 这 里 假设 在 时 间 步 1 状态 为 了 且 使 用 策 
略 x。 由 此 证 明 ` 
PO > min( Cire) +73 POI) 


j=l 


其 中 
wp SYG) 
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(b) 令 r 是 在 时 间 步 0 选择 行动 we 的 策略 ， 如 果 下 一 个 状态 为 7， 可 看 作 过 程 以 状态 7 开始， 遵循 策略 
Ty 使 得 
Jy(D <KIG +e 
其 中 = 是 一 个 很 小 的 正 数 。 由 此 证 明 
N 
JOS min( eis) +7) ps (e107)) +% 
eal, j=l 
(c) 用 (a) 和 Cb) 导出 的 结果 证 明 式 (12. 22), 
12.3 式 (12. 22) 表 示 N 个 方程 的 线性 方程 组 ， 每 个 状态 用 一 个 方程 。 令 
y =D JE) JEON] 
clp) = Cellad sc(2sp) se CN D] 


Pulw Pr Go Pin QD 
PU) = ba Cp) brew) tee pan Ò 
PD pml e Pw Ged 


证 明 式 (12. 22) 可 以 重新 写成 等 价 的 矩阵 形式 : 
l = YPI = elp) 
其 中 工 为 单位 矩阵 。 讨 论 表 示 NN 个 状态 的 cost-to-go 函数 的 向 量 Je 的 唯一 性 。 
12.4 12.3 节 中 推导 了 用 于 有 限 范围 问题 的 动态 规划 算法 。 在 本 题 中 对 一 个 折扣 问题 重新 推导 这 个 算法 ， 其 
中 cost-to-go 函数 由 下 式 定 义 : 


K-1 
JX) = Jira} Sye, X Xm | 
DSL n=0 





特别 地 ， 证 明 
Jx(Xo) = min E[g(Xo syl Xo): XD) 十 yJ ra (X] 
e X 
策略 迭代 
12.5 在 12.4 节 中 我 们 说 cost-to-go 函数 满足 
Jen D SJD, 对 于 所 有 的 i 
证 明 这 个 论断 。 
12.6 讨论 式 (12. 25) 描 述 的 论断 的 重要 性 。 
12.7 利用 控制 器 评价 系统 controller-critic system) ， 说 明 策 略 和 迭代 算法 中 策略 更 新 和 策略 求 值 之 间 的 相互 
作用 。 
AB IK AK, 
12.8 ”一 个 动态 规划 问题 其 涉及 N 个 允许 状态 M 个 允许 行动 。 假 定 使 用 一 个 稳定 策略 ， 证 明 值 迁 代 算法 的 一 
KERREN N'M 的 操作 。 
12.9 表 12.2 给 出 依据 对 状态 ELH cost-to-go BM J MEM AHRRAKARNDA. KE Q -因子 
Qi,a) 重 新 构造 这 个 算法 公式 。 
12.10 策略 迭代 总 是 在 有 限 步 后 终止 ， 但 是 值 适 代 可 能 要 无 限 次 选 代 。 讨论 这 两 个 动态 规划 方法 之 间 的 其 他 
差异 。 
时 序 差分 学 习 
12.11 (a) 构造 在 式 (12. 34) 和 式 (12. 35) 中 描述 的 TD(0) 算 法 的 信号 流 图 表示 。 
Cb) TDC0) 算 法 具有 和 第 3 BR LMS 算法 相似 的 数学 组 成 。 讨 论 这 两 个 算法 之 间 的 异同 点 。 
12.12 证 明 式 (12.40) 的 样本 均值 可 以 通过 式 (12. 42) 的 选 代 公 式 来 计算 。 
12.13 (a) 证明 等 式 1 和 2 是 从 式 (12.45) 和 (12. 46) 而 来 。 
(b) 构造 式 (12. 48) 的 信号 流 图 表示 ， 描 述 TD(4) 算 法 。 
Q -学 习 
12.14 证 明 
J O 一 min Q(i,a) 
12.15 Q-A JA A REER ER A ENER. ERREEN HE 
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12.16 构造 由 表 P12. 16 小 结 的 逼近 Q -学 习 算法 的 信号 流 图 。 

12.17 Æ P12. 16 小 结 的 逼近 Q -学 习 算 法 假定 缺乏 状态 转移 概率 的 知识 。 假 定 可 以 用 这 些 概率 ， 重 构 这 个 

逼近 动态 规划 : 非 直接 方法 

12.18 式 (12.70) 是 投影 值 迁 代 PVD 算法 的 最 小 二 乘 方案 。 为 了 实际 执行 这 一 算法 ， 我 们 提议 利用 Monte 
Carlo 模拟 法 来 有 还 近 它 ， 这 里 运用 在 式 (12.71) 中 描述 的 最 小 二 乘 策 略 评估 (LSPE) 算法 。 
Ca) 通过 设 式 (12. 70) 的 代价 函数 的 梯度 为 0， 推导 wi AO Hh 
(b) 对 式 (12. 71) 同 样 地 做 。 和 寻找 状态 i 的 实验 频率 和 转移 (i,;)〔 即 估计 稳定 状态 概率 n 和 转移 概率 

py) 来 说 明 PVI 和 LSPE 算法 一 致 渐进 。 

12.19 LSPE(A) 算 法 比 TDGA) 算 法 具有 更 快 的 收敛 速率 。 证 明 这 一 陈述 。 

12.20 图 P12.20 显示 了 逼近 目标 Q -因子 的 基于 神经 网 络 的 方案 ， 目 标 Q - 央 子 记 为 Q“ (iaw), Hp i 
记 网 络 的 状态 ，a 记 要 采取 的 行动 ，w 记 在 逼近 中 使 用 的 神经 网 络 的 权 值 向 量 。 相 应 地 ， 表 P12. 16 给 
出 了 通 近 Q -学 习 算 法 的 小 结 。 解 释 图 P12. 20 的 通 近 动态 规划 的 运行 以 证 明 表 P12. 16 中 的 小 结 。 


表 P12. 16 逼近 Q -学 习 算 法 小 结 
1 从 初始 权 信 向 址 ws 开始， 得 到 Q@- 因 子 Q(io ,ao ,wo); 权 值 向 基 wo 借助 所 用 的 神经 网 络 完成 遏 近 。 
2. 对 迭代 二 1,2,… ,做 下 面 几 步 ; 
(a) 对 于 神经 网 络 设 定 的 w， 确 定 最 优 行动 


dn = min Qalina w) 
ae at; 
n 


(b) 确定 日 标 Q@- 因 子 
QE iasan W) = Blin stn sn) +y min Qi Cn rb. WwW) 
i 


WO 更 新 Q -因子 
Qrir Gan dn W) = Qn Gin a W) + AQa Gy san W) 
其 中 





tn Cin sand CORE Cin sans W) — Qn Cinan W)) (isa) = Cin ran) 

0 其 他 

(da) 应 用 Ga. a.) 作为 神经 网 络 的 和 输入， 产生 输出 人 ,Cavyw) 作 为 目标 Q-A F QR (tianw) 的 通 近 。 轻 微 地 改变 权 
值 向 量 使 得 @.Ci asw) 更 靠近 目标 值 QW (ip sa, W) 

Ce) 回 到 步骤 a), 重复 计算 。 


AQ, Cin sans w) = | 


H ty . 
OG, as W) 








Al P12. 20 
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神经 动力 学 
本 章 组 织 
本 章 研 究 递归 神经 网 络 ， 重 点 放 在 用 Lyapunov 直接 方法 来 解决 稳定 性 问题 上 。 
本 章 组 织 如 下 

13. 1 节 提 出 确定 神经 动力 学 系统 的 稳定 性 的 研究 动机 ， 指 出 这 个 问题 的 历史 观点 。 

13.2 节 到 13.6 节 提供 背景 材料 。 特 别 地 ，13.2 节 介绍 一 些 动 态 系 统 中 的 基本 概念 ， 随 
后 在 13. 3 节 中 讨论 平衡 点 稳定 性 。13.4 节 中 描绘 在 动态 系统 研究 中 浮现 出 的 各 种 类 型 的 吸 
引子 。 在 13.5 节 再 次 讨论 神经 元 的 加 性 模型 。13.6 节 讨 论 作 为 神经 网 络 范例 的 吸引 子 的 
运作 。 

13.7 节 到 13.9 节 是 本 章 的 第 二 部 分 ， 处 理 联想 记忆 。13.7 节 详 细 讨 论 Hopfield 模型 和 
作为 按 内 容 寻 址 记忆 使 用 的 离散 Hopfield 模型 的 细节 问题 。13.8 节 中 对 非 线性 系统 给 出 了 它 
们 的 Cohen - Grossberg 定理 ， 系 统 包 含 Hopfield 网 络 和 其 他 联想 记忆 作为 其 特例 。13. 9 78 
述 另 一 个 被 称 为 盒 中 脑 状态 模型 的 神经 动力 学 模型 ， 该 模型 非常 适用 于 聚 类 。 

最 后 部 分 是 13. 10 节 到 13. 11 节 ， 处 理 混 沌 的 相关 论题 。13. 10 节 讨 论 混沌 过 程 的 不 变 特 
征 ， 随 后 在 13. 11 节 讨 论 混沌 过 程 动力 学 重建 这 一 紧密 相关 题目 。 

最 后 是 13. 12 节 的 评论 。 


13. 1 引言 


以 这 种 或 那 种 形式 ， 时 间 在 学 习 中 扮演 着 重要 的 角色 ， 本 书 前 面 的 章节 中 多 数 材料 例 示 了 
这 点 。 基 本 上 说 ， 时 间 以 两 种 方式 显示 了 它 在 学 习 过 程 中 的 作用 : 

L 静态 神经 网 络 (如 第 4 章 中 的 多 层 感知 器 ) 将 它 通过 一 个 或 短 或 长 的 记忆 结构 作为 动 

态 映 射 器 运行 。 

2. 把 时 间 以 隐 含 的 方式 脱 入 神经 网 络 的 运行 之 中 的 重要 途径 是 通过 使 用 反馈 。 

把 反馈 应 用 于 神经 网 络 有 两 种 基本 途径 ，; 

1. 局 部 反馈 ， 应 用 于 网 络 的 单一 神经 元 层次 上 。 

2. 全 局 反馈 ， 它 包括 一 个 或 多 个 隐藏 神经 元 或 更 好 的 整个 网 络 。 
局 部 反馈 处 理 起 来 相对 简单 ， 但 全 局 反馈 有 更 深 的 含义 。 在 关于 神经 网 络 的 文献 中 ， 带 有 一 个 
或 者 更 多 反馈 回路 的 神经 网 络 被 称 为 递归 网 络 。 

基本 上 ， 递 归 神 经 网 络 有 两 个 功能 : 

1. 联想 记忆 

2. 输入 -输出 映射 网 络 

本 章 讨论 把 递归 神经 网 络 作为 联想 记忆 ， 作 为 映射 器 的 使 用 推迟 到 第 15 章 讲述 。 这 两 个 功 
能 中 的 任何 一 个 都 是 感 兴趣 的 应 用 ， 其 中 一 个 特别 重要 的 主题 是 稳定 性 ， 在 本 章 中 也 将 讨论 。 

反馈 就 像 一 柄 双 刃 剑 ， 如 果 你 不 能 恰当 地 使 用 它 ， 它 就 会 产生 负面 效果 。 特 别 地 ， 反 馈 的 
应 用 能 导致 本 来 是 稳定 的 系统 变 得 不 稳定 。 在 这 一 章 中 ， 我 们 的 主要 兴趣 在 于 递归 网 络 的 稳 
定性 。 

神经 网 络 视 为 非 线性 动力 系统 ， 并 特别 强调 其 稳定 性 问题 ， 称 为 神经 动力 学 (neurody- 
namics) 。 非 线性 动力 系统 的 稳定 性 〈 或 不 稳定 性 ) 的 一 个 重要 特征 就 在 于 它 是 整个 系统 的 特 
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性 。 作 为 一 个 推论 : 
稳定 性 的 存在 总 是 意味 着 在 系统 的 各 个 独立 部 分 之 间 某 种 形式 的 协调 。 


对 神经 动力 学 的 研究 开始 于 1938 年 Nicholas Rashevsky 的 工作 ， 在 他 富 于 想象 力 的 思维 
中 动力 学 第 一 次 应 用 于 生物 学 。 

非 线性 动态 系统 的 稳定 性 是 一 个 处 理 起 来 很 杯 手 的 问题 。 当 谈 到 稳定 性 问题 的 时 候 ， 拥 有 
工程 背景 的 人 经 常会 想到 有 界 输 入 和 有 界 输 出 (BIBO 的 稳定 性 准则 。 依 照 这 一 准则 ， 稳 定 
性 意味 着 如 果 有 界 的 输入 ， 初 始 条 件 或 不 必要 干扰 ， 那 么 系统 的 输出 就 必定 不 会 无 界 地 增长 。 
BIBO 稳定 性 准则 非常 适合 于 线性 动态 系统 。 但 是 ， 由 于 租 人 神经 元 结构 之 中 的 饱和 非 线 性 使 
得 所 有 的 这 样 一 些 非 线性 动态 系统 都 是 BIBO 稳定 的 ， 所 以 把 BIBO 稳定 性 准则 应 用 到 神经 网 
络 上 是 无 用 的 。 

当 在 非 线 性 动态 系统 背景 下 谈 到 稳定 性 时 ， 我 们 通常 都 意味 着 Lyapunov 意义 的 稳定 性 。 
在 1892 年 一 个 值得 庆贺 的 日 子 里 ，Lyapunov (一 位 俄罗斯 数学 家 和 工程 师 ) 提出 了 众所周知 
的 稳定 性 理论 的 基本 概念 一 一 Lyapunov 直接 方法 。 这 一 方法 被 广泛 用 于 线性 和 非 线性 系统 中 
的 稳定 性 分 析 ， 包 括 时 不 变 和 时 变 两 种 情况 。 因 此 ， 它 可 以 直接 用 于 神经 网 络 中 的 稳定 性 分 
析 。 事 实 上 ， 本 章 中 提 到 的 很 多 材料 都 涉及 Lyapunov 直接 方法 。 但 是 ， 它 的 应 用 不 是 一 个 轻 
松 的 任务 。 

对 神经 动力 学 的 研究 可 能 会 遵从 两 种 途径 之 一 ， 这 取决 于 实际 的 应 用 : 

。 确定 性 神经 动力 学 : 此 时 神经 网 络 模型 带 有 确定 的 行为 。 数 学 上 用 一 组 非 线性 微分 方 
程 来 描述 ， 微 分 方程 定义 作为 时 间 函 数 的 模型 的 精确 进化 (Grossberg，1967; Cohen 
and Grossberg, 1983; Hopfield, 1984), 
统计 性 神经 动力 学 ; 此 时 神经 网 络 受 到 存在 噪声 的 干扰 。 在 这 种 情况 下 ， 我 们 将 不 得 
不 处 理 随 机 非 线 性 微分 方程 组 ， 因 而 用 概率 术语 表示 解 (Amari 等 ，1972; Peretto， 
1984; Amari，1990)。 随 机 性 和 非 线 性 的 组 合 使 得 这 个 主题 非常 难于 处 理 。 

在 本 章 中 ， 我 们 将 限制 在 确定 性 神经 动力 学 之 内 。 


13.2 动态 系统 


为 了 进行 神经 动力 学 的 研究 ， 我 们 需要 用 一 个 数学 模型 描述 非 线 性 系统 的 动力 学 。 自 然 
最 适合 这 一 用 途 的 模型 就 是 状态 空间 模型 。 根 据 这 个 模型 ， 我 们 考虑 一 组 状态 变量 ， 假 设 这 
些 变量 的 值 〈 在 任意 特定 时 刻 ) 都 包含 充分 的 信息 ， 可 以 预测 系统 的 可 能 演化 。 令 zi (0)， 
zz(t) ,"… ,zn(t) 表 示 非 线性 动态 系统 的 状态 变量 ， 其 中 连续 时 间 i 是 独立 变量 且 N 为 系统 的 
阶 。 为 了 简化 符号 ， 把 这 些 状态 变 量 收集 在 一 个 叫做 系统 状态 向 量 ， 或 简称 为 状态 的 NX1 的 
向 量 x( 办 里 。 那 么 非 线 性 动态 系统 的 一 大 类 的 动力 学 特性 就 可 以 用 一 阶 微分 方程 组 的 形式 
给 出 


d 

dt 
其 中 的 函数 FC*) 是 它 的 自 变量 的 非 线 性 函数 。 我 们 可 以 用 向 量 符号 把 这 个 方程 组 写成 紧 资 
形式 : 


z; = F(x;(t)), j= 1,2,.N (13. 1) 


d 


x = F(x(t)) (13. 2) 
其 中 非 线性 函数 下 是 向 量 值 的 ， 它 的 每 一 个 元 素 作 用 于 下 述 状态 向 量 中 的 一 个 对 应 元 素 : 
x(t) = [x Ct) , x2 Ct) eet pty Ct) J? 13. 3) 


如 在 式 (13. 2) 中 那样 ， 若 向 量 函 数 F(x(z)) 不 显 式 地 依赖 于 时 间 :， 则 这 样 的 非 线 性 动态 系统 
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被 称 为 自治 的 (autonomous); 否则 称 为 非 自 治 的 (nonautonomous)!。 
不 管 非 线 性 函数 FC) 的 精确 形式 是 什么 ， 状 态 向 量 xb 必须 随时 间 改 变 ;， 否则 ，x(b6) 就 是 
常量 而 系统 也 不 再 是 动态 的 。 因 此 我 们 可 以 正式 定义 一 个 动态 系统 如 下 : 


动态 系统 是 状态 随时 间 变 化 的 系统 。 


此 外 ， 我 们 可 以 把 dx/d 作为 “速度 ”来 考虑 ， 不 是 在 物理 意义 上 而 是 在 抽象 意义 上 的 。 
那么 ， 根 据 式 (13. 2) ， 可 以 将 向 量 函 数 F(x) 称 为 速度 向 量 场 或 者 简单 地 称 为 向 量 场 (vector 
field). 
状态 空间 a 
将 状态 空间 方程 03.2) 看 做 描述 N 维 状态 空间 中 一 个 点 的 运动 是 有 益 的 。 状 态 空 
间 可 能 是 欧 几 里 得 空间 或 者 是 它 的 一 个 子 集 。 也 可 能 是 非 欧 几 里 得 空间 ， 就 像 园 、 球 、 
环 或 者 其 他 一 些微 分 流 形 。 但 是 ， 我 们 的 兴趣 只 限于 欧 几 里 得 空间 (第 7 章 中 已 讨论 过 微 
分 流 形 ) 。 

状态 空间 很 重要 ， 因 为 它 给 我 们 提供 可 视 的 且 概 念 化 的 工具 ， 用 来 分 析 由 式 (13. 2 描述 的 
非 线性 系统 的 动力 学 。 它 是 通过 把 我 们 的 注意 力 集 中 于 运动 的 全 局 特性 而 不 是 方程 的 解析 解 或 
数值 解 的 细节 方面 来 实现 的 。 

在 某 一 特定 时 刻 :， 用 N 维 状 态 空间 中 的 一 个 点 表示 系统 被 观察 状态 〈 即 状态 向 量 x). 
用 状态 空间 中 的 一 条 曲线 表示 系统 状态 随时 间 上 的 变化 ， 曲 线 上 的 每 一 点 都 〈 显 式 地 或 隐 含 
地 ) 带 有 记录 观察 时 间 的 标记 。 这 条 曲线 叫做 系统 的 轨 线 或 轨道 。 图 13. 1 描绘 了 一 个 二 维系 
统 的 轨 线 。 轨 线 的 瞬时 速度 〈 即 速度 向 量 dx(z)/dz) 用 切 向 量 表示 ， 如 图 13. 1 中 :一 名 时 刻 用 
虚线 的 表示 。 因 此 我 们 可 以 得 出 轨 线 上 每 一 点 的 速度 向 量 。 

由 不 同 初 始 条 件 产生 的 不 同 轨 线 的 集合 称 为 系统 的 状态 相 图 (state portrait) 。 状 态 相 图 包 
含 状态 空间 中 所 有 那些 定义 向 量 场 F(x) 的 点 。 注 意 对 于 自治 系统 来 说 ， 每 种 初始 状态 将 只 有 
一 条 轨 线 穿 过 。 从 状态 相 图 产生 的 一 个 有 用 概念 是 动态 系统 的 流 flow) ， 被 定义 为 状态 空间 
在 系统 内 部 的 运动 。 换 句 话说， 可 以 想象 一 下 状态 空间 在 自身 内 部 流动 ， 就 像 一 种 流体 ， 每 一 
个 点 (状态) 沿 着 一 条 特定 轨 线 的 流动 。 这 里 描述 的 流 的 思想 在 图 13, 2 的 状态 相 图 中 有 生动 
的 说 明 。 


X 


X 








of * 0 x 











图 13.1 二 维 动态 系统 的 软 线 HD 图 13.2 二 维 动态 系统 的 状态 《相位 图 
给 定 一 个 动态 系统 的 状态 相 图 ， 可 以 构造 一 个 对 应 于 状态 空间 中 每 一 个 点 的 速度 (切线 ) 


428-4 13E 神经 动力 学 


向 量 场 。 这 样 得 到 的 图 也 提供 了 系统 中 向 量 场 的 描绘 。 图 13. 3 中 显示 许多 速度 向 量 ， 展 现 完 
全 的 场 看 起 来 像 什 么 。 向 量 场 的 用 处 在 于 事实 上 它 通过 在 v 
状态 空间 中 每 一 个 特定 点 以 惯性 速度 移动 ， 给 我 们 提出 一 | / 
种 对 动态 系统 固有 运动 倾向 的 可 视 描述 。 
Lipschitz 条 件 | / / 

为 了 状态 空间 方程 式 (13.2) 有 解 且 是 唯一 解 ， 必 须 在 向 \ \ 
ERA EC) 上 施加 一 定 的 限制 。 为 了 便于 表示 ， 我 们 已 经 含 \ ~ SAt 
弃 了 状态 向 量 x 对 时 间 的 依赖 ， 而 这 是 我 们 一 次 又 一 次 遵 ~、 一 一 
从 的 惯例 。 存 在 解 的 充分 条 件 为 F(x) 对 它 的 所 有 自 变量 是 连 — 一 
续 函 数 。 然 而 ， 它 这 一 限制 本 身 不 足以 保证 解 的 唯一 性 。 为 
了 做 到 这 一 点 ， 我 们 必须 施加 被 称 为 Lipschitz 条 件 的 额外 限 
制 。 令 |x| 表示 向 量 x 的 范 数 或 者 欧 几 里 得 长 度 。 令 x 和 uw 图 13.3 二 维 动力 系统 向 量 声 
作为 赋 范 向 量 (状态 ) 空间 上 某 一 开 集 UM 上 的 一 个 向 量 对 。 然 后 ， 根 据 Lipschitz 条 件 ， 存 在 一 个 
常量 K 使 得 下 式 对 机 中 所 有 的 x 和 ut 都 成 立 《Hirsch and Smale, 1974; Jackson, 1989): 

| Fx) — Fw) || < K || x—ull (13. 4) 

满足 式 (13. 4) 的 向 量 值 函数 F(x) 被 称 为 满足 Lipschitz 条 件 ，K 叫做 F(x) 的 Lipschitz 常数 。 
式 (13. 4) 也 意味 着 函数 F(x) 关于 x 的 连续 性 。 因 此 ， 对 自治 系统 来 说 ，Lipschitz 条 件 是 状态 
空间 方程 (13. 2) 存 在 且 只 存在 唯一 解 的 充分 条 件 。 特 别 地 ， 如 果 所 有 偏 导数 3F;/3z; 处 处 有 
限 ， 则 函数 F(x) 满足 Lipschitz 条 件 。 
散 度 定理 

考虑 自治 系统 状态 空间 中 某 个 容积 V 和 曲面 S 的 区 域 ， 并 且 设 想 由 区 域 的 点 组 成 的 
“ 流 ”。 从 以 前 的 讨论 ， 我 们 认识 到 速度 向 量 dx/dt 和 向量 场 F(x) 是 相等 的 。 倘 若 容积 V 内 的 
向 量 场 F(x) 是 相当 光滑 ， 则 可 以 从 向 量 微 积 分 学 的 角度 应 用 散 度 定理 CJackson, 1975). An 
表示 曲面 S 上 某 小 块 dS 处 指向 所 包含 容积 外 部 的 单位 法 向 量 。 然 后 ， 根 据 散 度 定理 ， 关 系 式 

| roo + mds = | cv + Foo av (13.5) 

在 F(x) 散 度 的 容积 积分 和 F(x) 向 外 法 线 分 量 的 曲面 积分 之 间 成 立 。 式 (13.5) 左 端的 值 被 认为 
是 从 曲面 $ 所 包围 的 区 域 中 流向 外 部 的 净 流 量 。 如 果 该 值 为 零 ， 则 说 系统 是 保守 的 《conser- 
vative); 若 为 负 ， 则 说 系统 是 耗 散 的 dissipative)。 根 据 式 (13. 5)， 同 样 可 以 说 : 


如 果 散 度 V。 F(x) (一 个 标量 ) 为 零 则 系统 是 保守 的 ， 若 为 负 则 系统 是 耗 散 的 。 





x 





13.3 平衡 状态 的 稳定 性 


考虑 由 状态 空间 方程 (13. 2) 描 述 的 自治 动态 系统 。 一 个 常 向 量 3EU 称 为 系统 的 平衡 ( 稳 
定 ) 状态 ， 如 果 条 件 
F(X) 一 0 (13. 6) 
满足 ， 其 中 的 0 为 零 向 量 。 速 度 向 量 d/d EVO RAR, ARR xk EN 
程 (13. 2) 的 解 。 此 外 ， 由 于 解 的 唯一 性 ， 没 有 其 他 的 解 曲线 能 够 穿 过 平衡 状态 X。 平 衡 状 态 也 
称 为 奇异 点 ， 表 示 在 平衡 点 这 种 情况 下 ， 轨 线 将 会 退化 到 这 个 点 本 身 。 
为 了 加 深 对 平衡 条 件 的 理解 ， 假 设 非 线性 函数 F(x) 对 于 状态 空间 方程 (13. 2) 来 说 足够 光 
滑 ， 使 得 在 的 邻 域 可 以 作为 线性 函数 处 理 。 特 别 是 ， 令 
x(t) = KX + Ax(t) (13.7) 
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HRW ax) x BUM. Wea. (RB FOO Taylor 级 数 展开 中 的 前 两 项 ， 将 其 近似 为 F(x) 


F(x) ~ X+ AAx(2) 


(13. 8) 


矩阵 A 是 非 线 性 方程 F(x) 的 Jacobi HH, ZEx=x RAIA, RRA 


— ə g 
A= 5x | eae 


(13. 9) 


将 式 (13.7) 和 式 (13. DARA. 2) ， 然 后 使 用 平衡 状态 的 定义 ， 得 到 


daxo) az AAx(t) 


(13. 10) 


倘若 Jacobi HERE A 是非 奇异 的 ， ANB RE A-: 存 在 ， 则 式 (13. 10) 描 述 的 近似 值 足 以 确定 系统 
轨 线 在 平衡 状态 邻 域 科 的 局 部 性 质 。 如 果 A 是 非 奇 异 的 ， 则 平衡 状态 的 性 质 主要 取决 于 A 的 
特征 值 ， 因 此 可 以 根据 它 的 相应 方式 进行 分 类 。 特 别 地 ， 当 Jacobi 矩阵 A 的 特征 值 有 m 个 带 有 




















正 实数 部 分 时 ， 我 们 可 以 说 豆 平 衡 状态 具有 类 型 (type)m。 表 13.1 二 阶 系统 平衡 状态 的 分 类 
对 于 二 阶 系统 这 种 特殊 情况 而 言 ， 平 衡 状 态 的 分 平衡 状态 x 的 类 型 | Jacobi MR A 的 特征 值 
类 可 归结 为 表 13.1 所 列 的 情况 ， 相 应 相 图 表示 在 图 稳定 结 点 负 实数 
13.4 中 (Cook, 1986; Arrowsmith and Place, 稳定 焦点 TBH th WF Ge Be 
1990) 。 不 失 泛 化 性 ， 假 设 平 衡 状态 位 于 状态 空间 的 原 不 稳定 结 点 正 实数 
点 ， 也 就 是 x= 0 的 地 方 。 注 意 对 于 图 13. 4e 中 的 区 AREN n AR 
点 ， 通 向 鞍点 的 轨 线 是 稳定 的 ， 而 从 烤 点 离开 的 轨 线 下心 Sepa He we 
则 是 不 稳定 的 。 
X % 
虚构 的 x EHN x, 
真实 的 x 嘉实 的 
a) b) 
Xz x2 
虚构 的 af 虚构 的 x, 
、 EEA x ”真实 的 
0 0 x 
c) d) 
虚构 的 x 
虚构 的 x, 1 


图 13.4 a 稳定 结 点 ; b 稳定 焦点 


Ð 


c) 不 稳定 结 点 ; O 不 稳定 焦点 ; e) B D 中 心 
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稳定 性 定义 
如 前 所 述 ， 状 态 空间 方程 的 线性 化 可 以 提供 关于 一 个 平衡 状态 的 局 部 稳定 特性 的 有 用 信 
。 但 是 ， 为 了 能 以 一 种 更 加 细节 化 的 方式 研究 非 线 性 动态 系统 的 稳定 性 ， 我 们 需要 关于 平衡 
Ta eer Peon ee 
在 与 带 有 平衡 状态 x 的 自治 非 线 性 动态 系统 相关 的 环境 中 ， 稳 定性 和 收敛 性 的 定义 如 下 
(Khalil, 1992): 
定义 1 若 对 于 任意 给 定 的 正 数 s。， 存 在 一 正 数 8 二 6(e)， 使 得 当 满 足 条 件 
| x(C0) —x|| < 
时 ， 对 于 所 有 0 恒 有 
| x(t) —x || <e 
则 称 平衡 状态 x 为 一 致 稳定 的 。 
这 一 定义 表明 如 果 初 始 状态 x(0) 很 接近 x， 则 系统 的 一 条 轨 线 可 能 会 停留 在 平衡 状态 X 
小 的 一 个 邻 域内 ， 否 则 系统 将 不 平衡 。 
定义 2 如 果 存 在 一 个 正 数 6 使 得 当 条 件 
| x(0) —x|| < 
时 ， 对 于 
x(t) X, t—-oo 
则 称 平衡 状态 下 为 收敛 的 。 
第 二 个 定义 的 含义 是 ， 如 果 一 条 轨 线 的 初始 状态 x(0) 足 够 接近 于 平衡 状态 x， 则 在 时 间 z 
接近 无 穷 的 时 候 ， 由 状态 向 量 xO MARURK KAT X. 
定义 3 若 平衡 状态 是 稳定 的 并 且 是 收敛 的 ， 则 称 平衡 状态 京 为 渐 近 稳定 的 。 
这 里 要 注意 稳定 性 和 收敛 性 是 互相 独立 的 性 质 。 只 有 两 者 都 具备 才 有 渐 近 稳定 性 。 
定义 4 ”如果 平衡 状态 是 稳定 的 ， FEET MIR ELE cee ee 
WERE GRA X HEA REN. 
这 一 定义 意味 着 系统 不 可 能 有 其 他 的 平衡 状态 ， 而 且 它 要 求 系统 中 的 每 一 条 轨 线 对 所 有 的 
时 间 >o 都 保持 有 界 。 换 句 话 说， 全 局 渐 近 稳定 性 意味 着 对 于 任意 初始 条 件 系统 都 将 最 终 稳 
定 在 一 个 稳 态 上 。 e 
例 1 一 致 稳定 性 
令 式 (13. 2) 表 示 的 非 线性 动态 系统 的 解 a) 
随时 间 变 化 ， 就 像 图 13.5 中 显示 的 那样 。 如 图 
13.5 所 示 ， 为 了 解 uCb) 是 一 致 稳定 的 ， 我 们 需要 
ui 和 任何 其 他 解 v(z) 在 同样 的 1: 值 (即时 间 “ 滴 
答 ”) 时 保持 互相 接近 。 这 种 行为 被 称 为 两 个 解 
u(t) 和 和 v(t) 的 同步 对 应 (isochronous correspon- 
dence) 。 设 解 u(z) 是 收敛 的 ， 假 定 对 于 每 一 个 其 他 图 13.5 状态 向 量 一 致 稳定 的 概念 图 示 
的 解 v(t)， 在 1 二 0 处 vCO) 一 u(0) || <dCe) REZ, 
MEOR uCz) 当 z 趋 于 无 穷 时 收敛 于 平衡 状态 。 m 
Lyapunov 定理 
定义 了 动态 系统 的 稳定 性 和 渐 近 稳定 性 之 后 ， 下 一 个 要 考虑 的 问题 就 是 确定 稳定 性 。 显 而 易 见 
我 们 可 以 通过 实际 地 找到 系统 状态 空间 方程 的 所 有 可 能 解 来 做 到 ; 但 是 这 种 方法 “即使 有 可 能 ) 也 
是 非常 困难 的 。 一 个 更 好 的 方法 可 以 在 现代 稳定 性 理论 中 找到 ， 该 理论 由 Lyapunov (1892) 创立 。 
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具体 地 讲 ， 我 们 可 以 通过 应 用 Lyapunov 直接 方法 来 研究 稳定 性 问题 ， 这 个 方法 使 用 叫做 Lya 
punov 函数 的 状态 向 量 的 连续 标量 函数 。 

由 方程 (13. 2) 描 述 的 具有 状态 向 量 x(z) 和 平衡 状态 的 自治 非 线 性 动态 系统 ， 关 于 它 的 状 
态 空间 的 稳定 性 和 渐 近 稳定 性 的 Lyapunov 定理 可 以 陈述 如 下 (Khalil，1992): 

定理 1 如 果 在 下 的 小 邻 域内 存在 一 个 正定 函数 V(x)， 其 对 时 间 的 导数 在 该 区 域内 是 半 负 
定 的 ， 则 平衡 状态 下 是 稳定 的 。 
定理 2 如 果 在 下 的 小 邻 域内 存在 一 个 正定 函数 V(X)， 其 对 时 间 的 导数 在 该 区 域内 是 负 定 
则 平衡 状态 去 是 渐 近 稳定 的 。 
满足 以 上 要 求 的 标量 函数 V(x) 叫 做 平衡 状态 的 垃 的 Lyapunov BK, 
这 两 个 定理 要 求 Lyapunov 明 数 是 正定 函数 。 这 样 的 学 数 定义 如 下 : 
L 函数 V(x) 对 状态 向 量 X 中 所 有 元 素 有 连续 偏 导 数 
2. V(X)=0 
3. w@HxEU—x, MVCx)>0 
给 出 这 样 的 Lyapunov 函数 V(x)， 根 据 定理 1， 若 


SVGO <0, wExeU—x (13. 11) 


RY, WEARAX BREN. WS. WEEE 2, F 
iva <o, HFxEU—I (13. 12) 


成 立 ， 则 平衡 状态 是 浙 近 稳定 的 。 

这 一 讨论 的 重要 之 处 在 于 可 以 不 求解 系统 的 状态 空间 方程 而 直接 应 用 Lyapunov 定理 。 不 
幸 的 是 ， 定 理 并 没有 给 出 如 何 找到 Lyapunov 函数 的 提示 ; 在 每 种 情况 下 ， 它 是 一 件 创造 性 
的 、 试 验 性 的 和 易 错 的 事情 。 对 于 感 兴趣 的 很 多 问题 ， 能 量 函 数 可 以 起 到 Lyapunov 函数 的 作 
Al. 但 是 ,无 法 找到 适用 的 Lyapunov 函数 并 不 能 证 明 系 统 的 不 稳定 性 。 因 为 Lyapunov 函数 
的 存在 是 系统 稳定 的 充分 条 件 ， 而 不 是 必要 条 件 。 

Lyapunov K% VCx) 为 对 由 式 (13. 2) 描 述 的 非 线性 动态 系统 进行 稳定 性 分 析 提 供 了 数学 基 
Ri. BWM, BT Jacobi 矩阵 A， 使 用 式 (13. 10) 为 进行 系统 局 部 稳定 性 分 析 提 供 基础 。 简 
单 地 说 ，Lyapunov 稳定 性 分 析 的 结论 比 局 部 分 析 更 有 力 。 
Lyapunov 平面 

为 了 直观 地 理解 两 个 Lyapunov 定理 ， 我 们 引入 Lyapunov 平面 的 概念 ， 正 式 定义 如 下 

V(x) 一 c， 对 于 一 些 正常 数 <>0 


的 


- 


在 定理 1 下 ， 条件 
BVO) <0 
意味 着 一 旦 轨迹 对 于 某 一 正常 数 c AN Lyapunov 平面， 轨迹 将 移 人 一些 点 定义 的 集合 
xE R“, 给 定 VCGx <0 
并 且 不 会 再 跑 出 Lyapunov 平面 。 在 这 个 意义 上 我 们 说 在 定理 1 下 系统 是 稳定 的 。 
另 一 方面 ， 在 定理 2 下 ， 条 件 


ivæ <0 
意味 着 轨迹 将 从 一 个 Lyapunov 平面 移 人 一 个 具有 更 小 常数 的 内 部 的 Lyapunov 平面 ， 如 图 
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13. 6 所 示 ， 特 别 地 ， 伴 随 着 常数 c 的 值 减 少 ，Lyapunov 平 面 以 相应 的 方式 向 平衡 状态 靠近 ， 这 
点 暗示 着 随 着 t 的 前 进 轨迹 接近 平衡 状态 3。 但 
是 我 们 不 能 肯定 随 着 too, 轨迹 将 真正 收 钱 到 
X。 虽 然 如 此 ， 我 们 能 得 出 结论 : 在 此 严格 意义 
上 平衡 状态 是 稳定 的 ， 即 轨迹 被 包含 在 任何 具 
有 某 一 小 半径 e 的 球 中， 要 求 初始 条 件 x(0) 位 A C 
于 包含 在 一 个 球 中 的 Lyapunov 平面 内 (Khalil, 

1992) 。 另 外 ， 这 个 条 件 是 我 们 在 8. 5 节 中 提 到 的 
有 关 最 大 特征 过 滤 渐 进 稳定 性 的 条 件 。 








13.4 有 吸引 子 0 x 
耗 散 系统 一 般 可 以 用 存在 吸引 集 或 者 比 状 13.6 BERR WD Lyapunov Fi, 
态 空间 维 数 低 的 流 形 来 表征 。 流 形 的 概念 在 第 7 De TEA 
章 讨论 过 。 简 单 地 说 ,“ 流 形 ”是 指 嵌入 在 N 维 状态 空间 中 的 一 个 & 维 曲面 ， 它 由 方程 组 
E ia (13. 13) 
k<N 


定义 ， 其 中 rsrsrs 是 系统 六 维 状态 向 量 的 元 素 ，M; 是 这 些 元 素 的 一 个 函数 。 这 些 流 形 
称 为 吸引 子 *， 这 是 因为 吸引 子 为 有 界 子 集 ， 初 始 条 件 为 非 零 状态 空间 体积 的 区 域 随时 间 增 加 
而 收敛 到 它们 。 

流 形 可 以 是 状态 空间 中 的 一 个 点 ， 这 种 情况 叫做 点 吸引 子 。 另 外 ， 它 也 可 以 是 周期 性 轨道 ， 
这 种 情况 叫做 稳定 的 极限 环 ， 稳 定 意味 着 附近 的 轨 线 渐 近 地 趋 近 它 。 图 13. 7 描绘 了 这 两 种 类 型 
的 吸引 子 。 吸 引子 只 代表 动态 系统 中 的 平衡 状态 ， 它 们 可 以 通过 用 实验 方法 观察 到 。 但 是 ， 注 意 
在 吸引 子 的 情况 下 ,平衡 状态 (equilibrium) 既 不 意味 着 一 个 静态 平衡 (static equilibrium) ， 也 不 
意味 一 个 定常 状态 (steady state) 。 例 如 ， 一 个 极限 环 代表 一 个 吸引 子 的 稳定 状态 (stable state), 
但 是 它 随时 间 连 续 变 化 。 

在 图 13.7 中， 我们 注意 到 每 个 吸引 子 由 它 
自己 独 有 的 区 域 包围 。 这 样 的 区 域 叫做 吸引 人 金 
(3%) (basin (domain) of attraction), 。 同 时 注 \ 
意 系统 的 每 个 初始 状态 都 在 某 一 吸引 子 的 盆 中 。 ao 
分 隔 不 同 吸 引 盆 的 边界 叫做 分 界线 〈separa- oe 
trix). K 13.7 PRHWMA BRAT. RAQ 
MAA T, 的 并 表示 。 We | 

极限 环 组 成 非 线性 系统 的 平衡 点 变 得 不 稳 
定时 出 现 的 振 葛 行 为 的 典型 形式 。 因 此 ， 它 可 A197 吸引 盆 概 念 和 分 界线 思想 的 说 明 图 
能 出 现在 任意 阶 的 系统 中 。 虽 然 如 此 ， 极 限 环 是 二 阶 系统 特殊 的 特征 。 
双 曲 吸引 子 

考 虚 一 个 点 吸引 子 ， 它 的 非 线 性 动态 方程 在 平衡 状态 附近 被 线性 化 ， 如 13. 2 节 中 描述 
的 方式 。 令 A 表示 系统 在 x 二 x 处 计算 出 的 Jacobi 矩阵 。 如 果 A 所 有 特征 值 的 绝对 值 都 小 于 1， 
则 吸引 子 是 双 曲 吸引 子 (hyperbolic attractor) (Ott, 1993), W4, “BMH Rel FHM AW 
为 图 13. 4a 或 者 13. 4b 中 所 显示 的 形式 ; 两 种 情况 下 Jacobi 矩阵 A 的 特征 值 都 有 负 实 数 部 分 。 
双 曲 吸引 子 在 称 为 “消除 梯度 问题 ”的 研究 中 受到 特别 的 关注 ， 这 种 问题 出 现在 动态 驱动 的 递 
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归 网 络 中 ， 这 一 问题 将 在 第 15 章 讨 论 。 
13.5 神经 动态 模型 


对 非 线性 动态 系统 的 性 能 有 所 了 解 之 后 ， 准 备 在 本 节 和 下 一 节 探 讨 一 下 神经 动力 学 所 包含 
的 一 些 重要 问题 。 我 们 要 强调 的 是 ， 对 于 神经 动力 学 还 没有 一 个 被 普遍 认可 的 定义 。 我 们 也 不 
是 要 给 出 这 样 一 个 定义 ， 而 是 将 定义 本 章 中 所 考虑 的 神经 动力 学 最 普遍 的 属性 。 特 别 地 ， 讨 论 
将 局 限于 状态 变量 是 连续 的 并 且 运 动 方程 由 微分 方程 或 差分 方程 描述 的 神经 动态 系统 。 受 关注 
的 系统 具有 四 个 普遍 特性 (Peretto and Niez, 1986; Pineda，1988a) : 

1. 大 量 自由 度 。 大 脑 皮 层 是 高 度 并 行 的 分 布 式 系统 ， 据 估计 约 有 100 亿 个 神经 元 ， 每 个 
神经 元 用 一 个 或 更 多 状态 变量 来 描述 。 据 信和 这 样 一 个 神经 动力 学 系统 的 计算 能 力 和 容错 能 力 是 
系统 的 集体 动力 学 的 结果 。 系 统 可 以 表征 为 大 量 的 由 每 个 突 触 连接 的 强度 (效能 Ceffficacy)) 
表示 的 耦合 常量 。 

2. 非 线 性 性 。 神 经 动力 学 系统 是 非 线性 的 。 事 实 上 ， 非 线性 是 建立 通用 计算 机 器 的 基础 。 

3. 耗 散 性 。 神 经 动力 学 系统 是 耗 散 的 。 因 此 ， 它 由 随时 间 状 态 空 间 的 收敛 性 所 表征 ， 这 
个 空间 在 维 数 较 低 的 空间 上 。 

4 RB, RE WON EIS aA RHE. CERIN ARTE. BUSTER AE He a 
产生 (Katz, 1966). 

噪声 的 存在 需要 对 神经 元 行为 利用 概率 处 理 ， 这 给 分 析 神 经 动力 学 系统 增加 了 另 一 层次 上 
的 复杂 性 。 对 随机 神经 动力 学 的 详细 处 理 超 出 本 书 的 范围 。 因 此 ， 以 后 的 材料 中 均 忽 略 噪声 的 
影响 。 

加 性 模型 

考虑 图 13. 8 所 示 的 神经 元 的 无 噪声 动态 模型 ， 其 数学 基础 已 在 13 章 讨论 过 了 。 使 用 物理 
术语 来 说 ， 突 触 权 值 Wy » Uj2 ，,"… Win 表示 传导 系数 ， 各 自 的 输入 v(t) ,Xs lt) een ORRE 
压 ，N 是 输入 数量 。 这 些 输 入 被 用 于 有 如 下 特点 的 电流 求 和 连接 上 : 

。 低 输 入 阻抗 

。 单位 电流 增益 

。 高 输出 阻抗 
因此 对 输入 电流 来 说 ， 它 扮演 求 和 节点 的 角色 。 图 13. 8 中 非 线性 元 素 (激活 函数 ) 流向 输 人 
节点 的 总 电流 流量 为 : 


N 
Swit) +I; 
i=] 


其 中 第 一 项 〈 求 和 项 》 是 由 于 刺激 x (2) ,zs (4) zy O DHE ER A Ce RD) 
Wy, s Wye st stan Es 第 二 项 是 由 于 电流 源 L 代表 额外 施加 的 偏 置 。 令 v Ct) Ze AB ARR EBA K 
Be pC") 输 入 处 的 诱导 局 部 域 。 因此 可 以 表示 从 非 线 性 元 素 的 输入 节点 流出 的 总 电流 量 为 两 项 
的 和 : 

vi C) dv; (£) 

R; +O; GE 
其 中 第 一 项 是 由 于 漏 泄 阻抗 Ri ， 第 二 项 是 由 于 漏 泄 电容 G. WH Kirchoff 电流 定律 ， 我 们 知 
道 电路 中 流向 任何 节点 的 总 电流 流量 为 零 。 通 过 应 用 Krichoff 电流 定律 于 图 13.8 中 的 非 线性 
输入 节点 ， 得 到 





C, du, (2) pua) 


dż R; 





N 
= J wO +]; (13. 14) 
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式 (13. 14) 左 端的 电容 项 Ciduw (2) /di 是 在 神经 元 模型 上 添加 动力 学 〈 记 忆 ) 的 最 简单 的 途径 。 
给 定 诱导 局 部 域 v(t)， 可 以 通过 使 用 非 线 性 关系 : 

Zi(t) = glu; ()) (13. 15) 
来 确定 神经 元 7 的 输出 。 由 式 (13. 14) 描 述 的 RC 模型 通常 称 为 加 性 模型 ， 这 一 术语 用 于 区 别 
本 模型 wi 和 依赖 于 x: 的 乘法 (或 并 联 ) 模型 。 


f wy wxi() 
x (4) 0 






当前 源 
x(t) oO 
神经 
非 线性 
E w, xt) 7 输出 
an 4 x,(2) 一 一 + >—0 x,(2) 











+ 






Wa: 
IN Wy Xn 





xfOo 


413.8 神经 元 的 加 性 模型 


由 式 (13. 14) 描 述 的 加 性 模型 的 一 个 显著 特性 就 是 相 邻 神经 元 i 施加 在 神经 元 i 上 的 信号 
zi(t) 是 随时 间 :缓慢 改变 的 。 因 此 描述 的 模型 组 成 传统 神经 动力 学 的 基础 *。 
继续 考虑 一 个 包 食 NN 个 互相 连接 的 神经 元 的 递归 网 络 ， 假 设 其 中 每 一 个 神经 元 都 有 与 式 
(13. 14) 和 式 (13, 15) 同 样 的 数学 模型 。 那 么 ， 忽 略 神经 元 内 部 时 间 传 播 的 延迟 ， 我 们 可 以 用 联 
立 的 一 阶 微分 方程 组 的 系统 
C, au) =— aa + Supe) tL j=1,2,N (13. 16) 


定义 网 络 的 动力 学 ， 它 和 状态 方程 (13.1) 有 同样 的 数学 形式 ， 并 且 是 式 (13. 14) 中 各 项 的 简单 
再 排列 。 假 设 与 神经 元 ; 的 输出 z; (Ct) 相关 的 激活 函数 pC) 对 它 的 诱导 局 部 域 vt) 来 说 是 连续 
和 对 时 间 上 是 可 微 的 函数 。 普 遍 使 用 的 激活 函数 是 logistic 函数 


j= 1,2,:+ N (13. 17) 








_ 1 
glu) = IF expC v,)’ 


13.6 节 至 13. 11 节 中 描述 的 学 习 算 法 存在 的 必要 条 件 在 于 由 式 (13. 15) 和 式 (13. 16) 描 述 的 递 
归 网 络 具 有 固定 点 〈 即 点 吸引 子 ) 。 
相关 模型 
为 了 简化 说 明 ， 我 们 假设 式 (13. 16) 中 神经 元 7 的 时 间 常 数 mr 一 RC; 对 所 有 的 7 都 相同 。 

那么 ， 通 过 关于 这 一 时 间 常 数 的 公共 值 归 一 化 时 间 :， 关 于 R 归 一 化 w; 和 了 ;， 我 们 可 以 重新 
构造 式 (13.16) 的 模型 以 如 下 简单 形式 : 

WD D+ Dwg ll) +1, j = 1,2, N (13. 18) 
其 中 我 们 也 并 人 了 式 (13. 15) 。 联 立 一 阶 非 线性 微分 方程 组 (13. 18) 的 吸引 子 结构 和 以 下 描述 的 
紧密 相关 模型 的 吸引 子 结构 基本 上 相同 (Pineda, 1987): 

re =— x; (1) 十 9 人 Dwizils)) +K;, j = 1,2, N (13. 19) 


由 式 (13. 18) 描 述 的 加 性 模型 中 ， 独 立 神经 元 的 诱导 局 部 域 wm E), v (2)，,… ,vn (构成 状态 向 
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量 。 另 一 方面 ， 在 由 式 (13. 19) 描 述 的 相关 模型 中 ， 神 经 元 的 输出 zi (2) 2 (1) dn (zt) 构成 
状态 向 量 。 

这 两 种 神经 动力 学 模型 事实 上 通过 线性 的 可 逆 变 换 是 相关 的 。 具 体 地 讲 ， 通 过 在 式 
(13. 19) 两 侧 同 乘 以 rw ， 对 j 求 和 ， 然 后 用 变换 

u, Ct) = D wyr; 人 
进行 替换 ， 得 到 一 个 由 式 (13. 18)? 所 描述 的 类 型 的 模型 ， 并 且 由 此 发 现 两 个 模型 的 偏 置 项 由 
一 之 /mwK， 

相关 联 。 这 里 的 重要 之 处 是 注意 与 式 (13.18) 的 加 性 模型 的 稳定 性 相关 的 结果 也 适用 于 与 式 


(13. 19) 相 关 的 模型 。 
对 于 式 (13. 18) 和 式 (13. 19) 的 神经 动力 学 模型 的 框图 工具 的 说 明 ， 可 以 参考 习题 13. 2。 


13.6 ”作为 递归 网 络 范例 的 吸引 子 操作 


当 神经 元 数量 N 非常 大 的 时 候 ， 除 去 噪声 的 影响 ， 式 (1310 描述 的 神经 动力 学 模型 具 
有 13.5 节 中 概述 的 普遍 特性 ， 大 量 的 自由 度 、 非 线性 性 和 耗 散 性 。 因 而 ， 这 样 一 个 神经 动力 
学 模型 可 能 拥有 复杂 的 吸引 子 结构 ， 并 因此 展示 出 有 用 的 计算 能 力 。 

确认 具有 计算 对 象 如 联想 记忆 、 输 入 -输出 映射 器 ) 的 吸引 子 是 神经 网 络 范例 的 一 个 基 
础 。 为 了 实现 这 一 思想 ， 我 们 必须 训练 榨 制 吸引 子 在 系统 状态 空间 中 的 位 置 。 干 是 为 了 以 希望 
的 形式 编码 信息 或 者 学 习 感 兴趣 的 时 间 结构 ， 学 习 算法 采用 了 非 线性 动力 学 方程 的 形式 来 操纵 
吸引 子 在 状态 空间 的 位 置 。 通 过 这 一 途径 ， 在 机 器 的 物理 性 能 和 计算 的 算法 之 间 建 立 紧 密 的 联 
系 是 可 能 的 ， 

利用 神经 网 络 的 集体 属性 实现 计算 任务 的 一 种 途径 就 是 经 由 能 量 最 小 化 的 概念 。 在 13. 7 
节 和 13. 9 节 中 将 分 别 考虑 的 Hopfield 网 络 和 盒 中 脑 状态 模型 是 这 种 方法 著名 的 例子 。 这 两 种 
模型 都 是 能 量 最 小 化 网 络 ， 它 们 的 不 同 之 处 在 于 应 用 领域 不 同 。Hopfield 网 络 作为 按 内 容 寻 址 
存储 或 者 用 于 解决 组 合 类 型 最 优化 问题 的 模拟 计算 机 是 有 用 的 。 另 一 方面 ， 盒 中 脑 状态 模型 对 
于 聚 类 类 型 的 应 用 是 有 用 的 。 本 章 后 面 几 节 将 对 这 些 应 用 进行 说 明 。 

Hopfield 网 络 和 盒 中 脑 状 态 模型 是 不 含 隐藏 神经 元 的 
联想 记忆 的 实例 : 联想 记忆 是 智能 行为 的 一 个 重要 来 源 。 
另 一 个 神经 动力 学 模型 是 输入 输出 映射 器 类 型 的 ， 它 的 运 
行 依赖 于 隐藏 神经 元 的 可 用 性 。 在 这 后 -种 情况 中 ， 最 速 | we 
下 降 方 法 经 党 被 用 于 最 小 化 根据 网 络 参数 定义 的 代价 函数 ， | O 


并 因此 改变 吸引 子 的 位 置 。 第 15 章 中 讨论 的 动态 驱动 的 递 












































归 网 络 可 以 作为 这 后 一 种 神经 动力 学 模型 的 应 用 的 例证 。 | CTs, 
13.7 Hopfield 模型 ? 

如 图 13.9 中 描绘 的 那样 ，Hopfield 网 络 〈 模 型 ) 包含 te © {2 }-— 
一 组 神经 元 和 一 组 相应 的 单位 延迟 ， 构 成 一 个 多 回路 反馈 
系统 。 反 馈 回 路 的 数量 等 于 神经 元 数量 。 基 本 上 ， 每 个 神 > 
经 元 的 输出 都 通过 一 个 单位 延迟 元 素 被 反馈 到 网 络 中 另外 神经 元 。 ”单位 时 间 
的 每 一 个 神经 元 。 换 名 话 说， 网 络 中 没有 自 反 馈 ;， 避免 使 延 时 运算 
用 自 反 馈 的 原因 将 在 后 面 解释 。 图 13.9 有 4 个 神经 元 的 Hopfield 


为 了 研究 Hopfield 网 络 的 动力 学 ， 我 们 使 用 式 (13. 16) 网 络 结 爸 图 
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描述 的 基于 神经 元 加 性 模型 的 神经 动力 学 模型 。 
认识 到 2 9 二 mu(b9) 之 后 ， 我 们 可 以 把 式 (13. 16) 改 写成 以 下 形式 : 


G $u 0) —— WD +. Durga HL, j=l, N (13. 20) 


为 了 继续 讨论 ， 我 们 作出 以 下 假定 : 
1. 突 触 权 值 矩阵 是 对 称 的 ， 表 示 为 : 
wi = Wy， 对 于 所 有 的 i 和 j (13. 21) 
2. 每 个 神经 元 有 它 自 己 的 非 线 性 激活 函数 一 一 因此 在 式 (13. 20) 中 使 用 gi CD 。 
3. 非 线 性 激活 函数 可 送 ， 因 此 可 以 写成 : 
v= gr (zx) (13. 22) 
S sigmoid 函数 q;(v) 由 双 有 曲线 正切 函数 定义 : 














Qiw\ _ l—exp(— a,v) 
z= pi(v) tanh( 5 ) = iF exp av) (13. 23) 
在 原点 处 斜率 为 a;:/2， 表 示 为 
ai 一 dg 
iir | (13. 24) 
此 后 我 们 将 把 ai 称 为 神经 元 ; 的 增益 。 
在 式 (13. 23) 的 sigmoid 函数 的 基础 上 ， 式 (13. 22) 的 道 输出 -输入 关系 可 以 写成 : 
v= gi (2) 一 一 Hog( ==) (13. 25) 
一 个 单位 增益 神经 元 的 逆 输 出 -输入 关系 的 标准 形式 定义 为 : 
gp (2) = 一 log( 于 =) (13. 26) 
按照 这 一 标准 关系 可 以 把 式 (13. 25) 改 写 为 : 
gr (x) = og? (a) (13. 27) 
图 13. 10a 显示 标准 sigmoid 的 非 线性 函数 pC(v) 的 曲线 ， 图 13. 10b Bas AAA AS JE 2R PE Re R 
ge (x) KH. 
v=9"'(x) 














b) 
图 13.10 a) 标准 的 sigmoid ERER; D ERREX 
图 13. 9 中 的 Hopfield 网 络 的 能 量 (Lyapunov) 函数 定义 为 : 
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E =— 7% dyer, + D Rl, de She (13. 28) 
Hy st (13. 28) 定 义 的 能 量 函 数 玉 为 可 能 具有 很 多 极 小 点 的 复杂 图 像 。 网 络 的 动力 学 由 寻找 那些 
极 小 点 的 机 制 描述 。 
有 了 最 小 化 在 心中 ， 求 玉 对 时 间 t 的 微分 ， 得到; 
B= D (D wr R+) = (13. 29) 


由 于 式 (13. 20) ， 式 (13. 29) 右 端 圆 括号 内 的 值 被 认为 是 Gdo (2)/dit。 于 是 可 以 把 式 (13. 29) 简 
化 为 : 


N 











E = oF) oti (13. 30) 
现在 考虑 由 zi 定义 的 ww WKAR. ERAI 22) 代 和 人 式 (13. 30), HR: 
ee Dolie] de a 16 (%) hire] (13. 31) 
从 图 13. 10b 中 可 以 看 出 道 输出 输入 关系 g (zx;) 对 输出 zi 是 单调 增 函 数 。 因 此 它 遵 守 
Hoa 之 0， 对 于 所 有 的 了 (13. 32) 
我 们 也 注意 到 ， l 
(SE) 之 0， 对 于 所 有 的 了 (13. 33) 


因而 ， 所 有 在 式 (13. 31) 右 端 求 和 的 因子 都 是 非 负 的 。 换 名 话说 ， 对 式 (13. 28) 定 义 的 能 量 函 数 
Exh, RNA 


Eco, 对 于 所 有 的 t 


由 式 (13. 28) 的 定义 可 以 看 出 函数 已 是 有 界 的 。 因 此 ， 我 们 可 以 做 出 以 下 两 个 陈述 ， 


1. #3 BR E Z Hopfield RBH Lyapunov #4, 
2. 根据 Lyapunov 定理 1 模型 是 稳定 的 。 


换 名 话说， 由 非 线 性 一 阶 微分 方程 组 (13. 20) 的 系统 描述 的 连续 Hopfield 模型 的 时 间 演 化 
代表 状态 空间 中 的 一 条 轨 线 ， 该 轨 线 找 出 能 量 (Lyapunov) 函数 己 的 极 小 值 并 在 这 样 的 固定 
点 上 终止 。 从 式 (13. 31) 也 要 注意 ， 仅 当 


O =0, 对 于 所 有 的 j 


导数 dE/dt 变 为 零 。 因 此 可 以 进一步 写 出 


Œ <o, 固定 点 除外 (13. 34) 


式 (13. 34) 给 出 了 下 述 定 理 的 基础 : 

Hopfield 网 络 的 《Lyapunov) EAA ERRAK ARIA. 

Hut, Hopfield 网 络 在 Lyapunov 意义 上 说 是 全 局 渐 近 稳定 的 ; 吸引 子 固 定点 是 能 量 函 数 
的 极 小 值 ， 反 之 亦 然 。 
离散 和 连续 Hopfield 模型 的 稳定 状态 之 癌 的 关系 


Hopfield 网 络 可 以 用 连续 方式 或 离散 方式 运行 ， 依 赖 于 描述 神经 元 所 采用 的 模型 。 连 续 模 
型 的 运行 基于 前 面 描述 的 加 性 模型 。 另 一 方面 ， 离 散 模 型 的 运行 基于 McCulloch-Pitts 模型 。 
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通过 重新 定义 神经 元 的 输入 -输出 关系 ， 很 容易 在 连续 Hopfield 模型 稳定 状态 和 相应 的 离散 
Hopfield 模型 的 稳定 状态 之 间 建 立 联系 ， 使 得 这 样 的 关系 满足 下 面 两 个 简化 特性 ， 
1. 神经 元 的 输出 有 渐 近 值 
十 1 当 U; 二 CO 


n=] yy =o (13. 35) 
2. 神经 元 激活 函数 的 中 点 在 原点 处 ， 表 示 为 
g0) =0 (13. 36) 


相应 地 ， 可 以 对 所 有 的 7 设置 偏 置 1 为 零 。 

为 了 表示 连续 Hopfield 模型 的 能 量 函 数 玉 ， 人 允许 神经 元 有 自 反 回路 。 另 一 方面 ， 离 散 
Hopfield 模型 不 需要 自 反 回 路 。 因 此 ， 可 以 通过 在 两 种 模型 中 对 所 有 的 7 都 设置 wy 一 0 来 简 
化 讨论 。 

根据 这 些 观 察 ， 可 以 用 如 下 形式 重新 定义 式 (13. 28) 给 出 的 连续 Hopfield 模型 的 能 量 
PRK : 





一 (13. 37) 
由 式 (13. 27) 定义 反 函 数 g(x). FATURAS 7B, 
=~+ Dene +> aR, LF g (xr)dx (13. 38) 
积分 
Foda 
有 图 13. 11 中 显示 的 标准 形式 。 在 z; 一 0 积分 值 为 零 ， 其 他 情况 Pig 
其 值 为 正 。 假 设 在 z 接近 士 1 时 其 值 非常 大 。 但 是 ， 如 果 神 经 元 M D 


7 增益 wj 变 为 无 穷 大 〈 例 如 sigmoid 函数 的 非 线性 趋 于 理想 的 硬 
限制 形式 ) ， 式 (13. 38) 中 的 第 二 项 就 小 得 可 以 忽略 不 计 了 。 在 限 i 
制 情况 下 ， 对 所 有 的 i， 当 a, = cof} ESE Hopfield 模型 的 极 大 、 | 
极 小 值 变 成 和 离散 Hopfield 模型 中 的 对 应 值 相 等 。 在 后 一 情况 
下 ， 能 量 (Lyapunov) 函数 的 定义 简化 为 : ' 

1 


] N N 
p= Ll D Swern, (13. 39) 
2a La 
vy) 


其 中 第 7 个 神经 元 状态 为 x; = 一 士 1。 因 此 ， 我 们 得 出 结论 ， 高 增 
益 的 、 连 续 的 和 确定 的 Hopfield 模型 仅 有 的 稳定 点 对 应 于 离散 随 
机 Hopfield 模型 的 稳定 点 。 的 图 形 

然而 ， 当 每 一 个 神经 元 ; 有 很 大 但 是 有 限 的 增益 a 时 ， 我 们 发 现 式 (13. 38) 右 端 第 二 项 对 
连续 模型 的 能 量 函数 有 明显 的 贡献 。 特 别 地 ， 这 一 贡献 在 靠近 定义 模型 状态 空间 的 超 立 方 体 的 
所 有 面 、 边 和 和 角 点 处 都 很 大 并 且 为 正 。 而 另 一 方面 ， 该 贡献 在 远离 曲面 的 点 处 又 小 得 可 以 忽 
略 。 因 此 ， 这 种 模型 能 量 函 数 的 最 大 值 在 角 点 处 ， 但 最 小 值 却 略 微 向 超 立 方 体 的 内 部 偏 移 。 

图 13. 12 画 出 了 两 个 神经 元 的 连续 Hopfield 模型 的 能 量 等 值 线 图 或 能 量 图 。 两 个 神经 元 
的 输出 定义 图 中 的 两 个 坐标 轴 。 图 13. 12 中 左下 角 和 右上 角 代 表 无 穷 增益 限制 情况 下 的 稳定 最 
小 值 ， 有 限 增 益 情 况 下 的 最 小 值 将 向 内 部 偏 移 。 流 向 固定 点 〈 即 稳定 最 小 值 ) 的 流 可 以 解释 为 
式 (13. 28) 定 义 的 能 量 函 数 E 的 最 小 化 的 解 。 











0 +1 7 


图 13.11 积分 | g (Ddr 
o 
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图 13. 12 ”两 个 神经 元 的 双 稳 定 态 系统 的 能 量 等 值 线 图 。 纵 轴 和 横 轴 为 两 个 
神经 元 的 输出 。 稳 定 状态 位 于 左下 角 和 右上 角 ， 不 稳定 的 极点 位 
于 另外 两 个 角 。 箭 头 表示 状态 的 移动 。 移 动 一 般 不 垂直 于 能 量 的 
等 值 线 图 。( 经 美国 国家 科学 院 允 许 ， 摘 自 了 上 本 Hopfield, 1984) 


把 离散 Hopfield 网 络 作为 按 内 容 寻 址 存储 器 

Hopfield 网 络 应 用 于 按 内 容 寻 址 存储 器 ， 我 们 预先 知道 网 络 的 固定 点 ， 它 们 对 应 被 存储 
模式 。 但 是 ， 产 生 期 望 中 固定 点 的 网 络 突 触 权 值 是 未 知 的 ， 因而 问题 在 于 如 何 确 定 它们 。 
按 内 容 寻 址 存储 器 的 主要 功能 是 根据 模式 不 完整 或 有 噪声 的 表示 获取 存储 在 存储 器 中 相应 模 
式 (项 )。 为 了 以 简洁 方式 说 明 这 一 陈述 的 含义 ， 最 好 的 方法 就 是 引用 Hopfield1982 年 的 
论文 : 

假定 存储 在 存储 器 中 的 项 是 “H.A Kramers & G.H Wannier Physi Rev 60, 252 
(1941)”， 一 个 普通 的 按 内 容 寻 赴 存 储 器 ， 根据 足够 的 部 分 信息 能 检索 这 个 完整 的 存储 项 。 输 
A “B 双 annier，(1941)” 可 能 就 足够 了 。 理 想 的 存储 器 能 处 理 错误 并 且 甚 至 只 输入 “Wanni- 
er，(1941)” 就 能 检索 这 一 参考 文献 。 


因此 ， 按 内 容 寻 址 存储 器 的 一 个 重要 属性 就 
是 ， 在 给 出 存储 模式 的 信息 内 容 的 一 个 合理 子 集 
的 情况 下 检索 该 模式 的 能 力 。 此 外 ， 根 据 提 供 的 
线索 能 够 覆盖 不 一 致 的 信息 ， 在 这 种 意义 下 按 内 
容 寻 址 存储 是 可 以 纠 错 的 。 基本 存储 空间 

按 内 容 寻 址 存储 器 (CAM) 的 本 质 是 映射 基 
本 存储 上 到 动态 系统 的 固定 点 〈 稳 定点 )z 上 ， 

就 像 图 13. 13 描绘 的 那样 。 在 数学 可 以 把 这 个 映 存储 向 量 空间 
射 表示 为 图 13.13 递归 网 络 实现 的 编码 -解码 示意 图 
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ETX, 

的 形式 。 从 左 向 右 的 箭头 代表 编码 操作 ， 而 从 右 向 左 的 箭头 代表 解码 操作 。 网 络 状态 空间 的 吸 
引子 固定 点 为 网 络 的 基本 记忆 或 原型 状态 。 假 设 现在 呈现 给 网 络 一 个 模式 ， 这 个 模式 包含 基本 
记忆 的 部 分 ， 但 信息 是 是 够 的 。 那 么 我 们 可 以 将 该 特定 模式 表示 为 状态 空间 中 的 起 点 。 原 则 
上 ， 倘 若 该 起 点 靠近 表示 待 检索 记忆 的 固定 点 〈 即 它 位 于 固定 点 的 吸引 盆 内 部 )， 则 系统 应 该 
随时 间 演 化 并 最 终 收敛 于 记忆 状态 本 身 。 在 该 点 上 全 部 的 记忆 由 网 络 生 成 。 结 果 Hopfield 网 
络 有 再 现 (emergent) 的 性 质 ， 该 性 质 帮助 它 检索 信息 和 处 理 错 误 。 

在 使 用 McCulloch and Pitts (1943) 的 正规 神经 元 作为 基本 处 理 单元 的 Hopfield 模型 中 ， 
每 一 个 这 样 的 神经 元 具有 由 作用 其 上 的 诱导 局 部 域 所 决定 的 两 个 状态 。 神 经 元 i 的 “ 开 ” 或 
“点 火 ” 状 态 用 输出 值 xz; 二 十 1 表示 ， 而“ 关 ”或 “静止 ”状态 用 zi 二 一 1 表示 。 因 此 对 由 入 
个 神经 元 构成 的 网 络 来 说 ， 网 络 状态 由 向 量 


x= [ars zz," stn |" 
EX, HF a=+tl, PAT i 的 状态 表示 1 比特 信息 ， 而 NX1 的 向 量 ce RON 比特 信息 的 
二 进 制 字 。 
神经 元 7 的 诱导 局 部 域 w 定义 为 
v= Siwr, +B; (13. 40) 


其 中 5 是 额外 施加 在 神经 元 ; 上 的 固定 偏 置 。 因 此 ， 神 经 元 j 根据 确定 性 规则 
_ fr, da v; > 0 

a 一 1， wRu <0 

修改 它 的 状态 石 。 这 一 关系 可 以 改写 为 紧凑 形式 
x; = sgn(wv;) 

其 中 sen EAS AR. WE vy 恰好 是 零 会 出 现 什么 情况 ? 可 采取 任意 的 行动 。 例 如 ， 如 果 疡 一 
0， 可 以 设置 zj 一 土 1。 然 而 ， 我 们 将 使 用 如 下 约定 : 如 果 wv; 是 0， 神经 元 j 保持 它 原 有 状态 ， 
不 管 它 是 开 还 是 关 。 就 像 将 在 后 面 说 明 的 那样 ， 这 一 假定 的 显著 意义 在 于 作为 结果 的 流 图 表 是 


对 称 的 。 
把 离散 Hopfield 网 络 作 为 按 内 容 寻 址 存储 器 的 操作 有 两 个 阶段 ， 即 存储 阶段 和 检索 阶段 ， 
如 下 所 述 : 


1. 存储 阶段 。 假 设 我 们 希望 存储 一 组 表示 为 {&, |= 二 1,2,…,M) 的 NN 维 向 量 〈 二 进 制 

=) 和 集合。 我 们 称 这 M 个 向 量 为 基本 记忆 ， 表 示 被 网 络 存储 的 模式 。 令 &,; 表 示 基 本 记忆 &, 的 

第 i 个 元 素 ， 其 中 类 p=1,2,… ,M。 根据 存储 的 外 积 规则 ， 也 就 是 Hebb 学 习 的 基本 原则 的 推 
广 ， 从 神经 元 i 到 神经 元 7 的 突 触 权 值 定义 为 

wi = D (13. 41) 


使 用 1/N 作为 比例 常数 的 原因 是 为 了 简化 信息 检索 的 数学 表述 。 也 要 注意 式 (13. 41) 的 学 习 规 
mæ “Hyf” Cone shot) 计算 。 在 Hopfield 网 络 正常 运行 中 ， 设 置 

ws = 0, 对 于 所 有 1 (13. 42) 
这 意味 着 神经 元 没有 自 反 馈 。 令 W 表示 网 络 N XN 的 突 触 权 值 和 矩阵， 用 wi 作为 它 的 第 六 个 
元 素 。 从 而 可 以 把 式 (13. 41) 和 式 (13. 42) 用 和 抢 阵 形式 组 合 为 如 下 的 等 式 : 


W= 566? 一 MI (13. 43) 
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其 中 66) 表示 向 量 & 和 它 自身 的 外 积 ， 而 工 表示 单位 矩阵 。 从 这 一 突 触 权 值 和 权 值 矩阵 的 定 
义 式 我 们 可 以 重新 确认 如 下 事实 : 

。 网 络 中 每 一 神经 元 的 输出 都 反馈 到 所 有 的 其 他 神经 元 上 。 

> MAREA Bett (Bl ws 一 0)。 

- 网 络 权 值 矩阵 是 对 称 的 ， 表 示 为 〈 参 照 式 (13. 21)) 

Ww’ =W (13. 44) 

2. 检索 阶段 。 在 检索 阶段 ， 一 个 称 为 探 针 (probe) 的 N HE EE Sr 被 强加 于 Hoptield 网 
络 作为 它 的 状态 。 探 针 向 量 的 元 素 为 十 1。 它 典型 地 表征 网 络 中 基本 记忆 的 不 完整 或 噪声 形式 。 
然后 信息 检索 依照 动态 规则 进行 ， 在 该 规则 中 网 络 的 每 一 神经 元 j 随机 地 但 按 某 一 固定 比率 检 
测 作用 在 其 上 的 诱导 局 部 域 w (包含 任 意 非 零 偏 置 5;)。 如 果 在 某 一 时 刻 v 大 于 零 ， 则 神经 元 j 
将 切换 它 的 状态 到 十 1， 或 者 保持 在 该 状态 ， 如 果 已 经 是 十 1。 类 似 地 ， 如 果 vy HTS, WH 
经 元 j 将 切换 它 的 状态 到 一 1， 或 者 保持 在 该 状态 ， 如 果 已 经 是 一 1。 如 果 y BRAS, WA 
管 是 开 还 是 关 ， 神 经 元 7 都 将 保持 原 有 状态 。 因 此 ， 从 一 个 选 代 到 另 一 个 选 代 的 状态 更 新 是 确 
定 的 ， 但 是 选择 进行 更 新 操作 的 神经 元 则 是 随机 的 。 这 里 描述 的 异步 《〈 串 行 ) 更 新 过 程 继续 下 
去 直到 没有 任何 进一步 的 变化 可 以 报告 为 止 。 那 就 是 说 ， 用 探 针 向 量 oi 开始， 最 终 网 络 生成 
一 个 不 随时 间 改 变 的 状态 向 量 y， 它 的 每 个 元 素 都 满足 稳定 性 条 件 


N 
y; = sgn( X wy: +b), j=1,2,.%N (13. 45) 
i=l 


或 者 其 矩阵 形式 
y = sgn(Wy+ b) (13. 46) 
其 中 W EAA, b 是 外 部 施加 的 偏 置 向 量 。 这 里 描述 的 稳定 性 条 件 也 称 为 对 齐 
(alignment) 条 件 。 满 足 条 件 的 状态 向 量 y 称 为 系统 状态 空间 的 稳定 状态 或 国定 点 。 因 此 我 们 
可 以 作 这 样 的 陈述 ， 当 检索 操作 异步 进行 时 ，Hopfield 网 络 将 肯定 收敛 于 一 稳定 状态 ` 。 
表 13. 2 提出 对 Hopfield 网 络 操作 包括 存储 阶段 和 检索 阶段 的 步 又 的 一 个 小 结 。 


表 13.2 Hopfield 模型 小 结 


LFA. Gahi RREA N 维基 本 记忆 的 集合 。 使 用 外 积 规则 〈 即 Hebb 学 习 的 基本 原则 ) 计算 网 络 的 突 扔 


1 M 
0， j=i 
其 中 wi 为 从 神经 元 i 到 神经 元 j 的 突 触 权 值 。 向 量 E 的 元 素 等 于 土 1。 一 旦 它们 被 计算 出 ， 则 突 触 权 值 保持 不 变 。 
2. 初始 化 。 令 Bprobe 表 示 出 现在 网 络 中 的 一 未 知 N 维 输入 向 量 〈 探 针 ) 。 通 过 设置 
xj(0) = & probes f = 1 人 
初始 化 算法 ， 其 中 zj (0) 是 神经 元 7 在 时 间 z=0 时 的 状态 E pob ERE E E be 的 第 j 个 元 素 
3. 选 代 直 到 收敛 。 根 据 如 下 规则 异步 地 〈 即 随机 并 且 每 次 一 个 ) 更 新 状态 向 量 x(z) 中 的 元 素 : 
N 
aj(n+1) = sen( ON wizi), § = 12.0 N 
i=} 
重复 这 一 和 迭代 直到 状态 向 量 x 保持 不 变 。 
4. 输出 。 令 xd 表示 第 3 步 计 算出 的 固定 点 〈 稳 定 状 态 ) 。 作 为 结果 的 网 络 输出 向 量 y 为 
y = Xfixed 
第 1 步 是 存储 阶段 ， 第 2 步 到 第 4 步 构成 检索 阶段 。 


OO 上 -一 
例 2 三 个 神经 元 的 Hopfield 模型 的 再 现行 为 
为 了 说 明 Hopfield 模型 的 再 现行 为 ， 考 虑 图 13. 14a 所 示 的 三 个 神经 元 的 网 络 。 网 络 权 值 
矩阵 为 
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a) b) 


13.14 a) NMN=3 个 神经 元 的 Hopfield 网 络 结构 图 ; b) 描绘 两 个 稳定 态 和 网 络 流 的 图 








十 2 一 2 0 

因为 它 满足 式 (13. 42) 和 式 (13. 44) 的 条 件 ， 所 以 是 合法 的 。 假 定 施 加 在 每 个 神经 元 上 的 偏 
置 为 零 。 由 于 网 络 中 有 三 个 神经 元 ， 所 以 要 考虑 的 可 能 状态 有 2 二 8 种 。 这 8 种 状态 中 ， 只 有 
(1, 一 1,1) 和 (一 1,1, 一 1) 这 两 种 状态 是 稳定 的 ; 其 余 的 6 种 状态 都 是 不 稳定 的 。 我 们 说 
这 两 种 特殊 状态 是 稳定 的 是 因为 它们 都 满足 式 (13. 46) 的 对 齐 条 件 。 对 状态 向 量 (1, 一 1,1 )， 


我 们 有 
0 一 2 十 2] [1 十 4 
十 2 —2 0]l+1 十 4 


+1 
sgn(Wy) - | 一 了 


+1 


硬 限制 这 一 结果 得 到 


硬 限制 这 一 结果 之 后 ， 得 到 


=l 
因此 ， 这 两 种 状态 向 量 都 满足 对 齐 条 件 。 注 意 到 这 两 个 状态 互 为 相反 。 

此 外 ， 遵 从 表 13. 2 小 结 的 蜡 步 更 新 过 程 ， 我 们 得 到 图 13. 14b 所 描绘 的 流 。 这 个 流 图 展示 
关于 网 络 中 直观 上 满足 条 件 的 两 个 稳定 状态 之 间 的 对 称 性 。 这 种 对 称 性 是 令 作 用 于 其 上 的 诱导 
局 部 域 恰好 为 零 的 神经 元 保留 在 原 有 状态 的 结果 。 


=] 
sgn(Wy) | 十 ] =y 
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图 13. 14b 也 显示 出 如 果 图 13. 14a 的 网 络 初 始 状态 是 《1,1,1 )、( 一 1, 一 1,1) 或 (1， 
一 1, 一 1)， 那么 在 一 次 迭代 之 后 它 将 收敛 于 稳定 状态 (1, 一 1,1)。 如 果 初 始 状 态 是 (一 1， 
一 1 一 1)、( 一 1,1,1) 或 C1,1, 一 1)， 则 它 将 收敛 于 第 二 个 稳定 状态 (一 1,1, 一 1)。 
因此 ， 网 络 有 两 个 基本 记忆 (1, 一 1,1) 和 (一 1,1, 一 1) 表征 这 两 个 稳定 状态 。 式 
(13. 43) 的 应 用 产生 突 触 权 值 矩阵 
0 0 1 0 一 2 +2 
1 |= 0 一 2 
0 1 


+1 
1 
十 2 一 2 0 





W 














— 1 
11—11, +14 Hl 1, 二 1 一口 一 2 
+1 ~] 

它 和 图 13. 14a 所 示 的 突 触 权 值 符合 。 

通过 检验 图 13. 14b 的 流 图 ，Hopfield 网 络 的 纠 错 能 力 是 显而易见 的 : 

1. 如 果 作 用 在 网 络 上 的 探 针 向 量 ow 等 于 (一 1,; 一 1,1)、(1,1,1) 或 (1, 一 1, 一 1)， 
则 作为 结果 的 输出 是 基本 记忆 (1, 一 1,1)。 每 个 这 样 的 探 针 的 值 表示 一 个 和 存储 模式 相 比 的 
单一 错误 。 

2. 如 果 探 针 向 量 6 等 于 (1,1, 一 1)、( 一 1 一 1, 一 1) 或 (一 1,1,1 )， 则 作为 结果 的 
输出 是 基本 记忆 (一 1,1, 一 1)。 这 里 再 次 表明 ， 每 个 这 样 的 探 针 表示 一 个 和 存储 模式 相 比 的 
单一 错误 。 

PEAR AS 

就 像 式 (13. 44) 指 出 的 那样 ， 离 散 Hopfield 网 络 的 权 值 矩阵 W 是 对 称 的 。 因 此 W 的 特 
征 值 都 是 实数 。 然 而 ， 当 M 很 大 的 时 候 特 征 值 通常 是 退化 的 (degenerate) ， 这 意味 着 有 儿 
个 特征 向 量 有 同样 的 特征 值 。 通 过 退化 特征 值 联系 的 几 个 特征 向 量 构 成 了 一 个 子 空间 。 此 
外 ， 权 值 矩 阵 W 退化 特征 值 有 等 于 零 的 ， 这 种 情况 下 的 子 空间 叫做 零 空间 。 零 空间 的 存在 
是 由 于 基本 记忆 的 数量 M 小 于 网 络 中 神经 元 数量 N 的 事实 。 零 空间 的 出 现 是 Hopfield 网 络 
的 内 在 特性 。 

权 值 矩阵 W 的 特征 分 析 ， 使 得 我 们 对 把 离散 Hopfield 网 络 作为 按 内 容 寻 址 存储 器 支持 下 
列 观点 (Aiyer 等 ，1990) ， 

1. 离散 Hopfield 网 络 将 探 针 向 量 投影 到 被 基本 记忆 向 量 扩 张 成 的 子 空间 只 上 ， 从 这 种 意 
义 上 说 ， 它 起 到 向 量 投 影 器 的 作用 。 

2. 网 络 固有 的 动力 学 把 结果 投影 向 量 驱动 到 单位 超 立 方 体 的 能 量 函 数 最 小 的 一 个 角 点 处 。 

单位 超 立方 体 是 N 维 的 。 扩 张 成 子 空间 的 M 个 基本 记忆 向 量 组 成 由 单位 超 立 方 体 确定 的 
角 点 表示 的 固定 点 〈 稳 定 状 态 》 的 集合 。 单 位 超 立 方 体 的 其 他 位 于 子 空间 内 部 或 附近 的 角 点 是 
ETE HR A (spurious states〉 的 所 在 位 置 ， 也 称 为 伪 吸 引子 。 伪 状态 表示 Hopfield 网 络 中 不 
同 于 网 络 基 本 记忆 的 其 他 稳定 状态 。 

因此 ， 在 设计 作为 按 内 容 寻 址 存储 器 的 Hopfield 网 络 过 程 中 ， 我 们 面临 着 对 两 个 矛盾 需 
求 的 权衡 : 

。 需要 在 状态 空间 中 保持 基本 记忆 向 量 作为 固定 点 。 

。 希望 有 少量 的 伪 状 态 。 

不 幸 的 是 ，Hopfield 网 络 的 基本 记忆 不 总 是 稳定 的 。 而 且 ， 可 能 出 现 由 伪 状 态 表征 的 不 同 
于 基本 记忆 的 其 他 稳定 状态 。 这 两 种 现象 倾向 于 降低 作为 按 内 容 寻 址 存储 器 Hopfield 网 络 的 
效率 。 

13.8 Cohen-Grossberg 定理 
在 Cohen and Grossberg (1983) ， 给 出 评价 一 类 神经 网 络 的 稳定 性 的 一 般 原 则 : 由 如 下 联 
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立 非 线性 微分 方程 组 描述 
Sus = a; (u) [b; C) — > ug co)]， j=1,,N (13. 47) 
这 类 神经 网 络 允许 定义 一 Lyapunov EA 
= +> Dapp 一 dfs (arg) (Ada (13. 48) 


其 中 g; OE m (4) 相 应 于 4 的 导数 。 为 了 使 式 (13. 48) 的 定义 有 效 ， 需 要 下 面 三 个 条 件 成 立 ， 
1. 网 络 的 突 触 权 值 对 称 : 


Cy = ci (13. 49) 
2.a; (wu; ) 满 足 非 负 性 条 件 : 
a; (u;) == 0 (13. 50) 
3. 非 线性 输入 -输出 函数 gj Cwj) 满 足 单调 性 条 件 : 
/ d 
g; Cu;) = uP) = 0 (13. 51) 


有 了 这 些 基础 ， 我 们 可 以 正式 地 陈述 Cohen-Grossberg 定理 : 


如 果 非 线性 微分 方程 组 (13.47) 满足 对 称 性 、 非 负 性 和 单调 性 ， 则 由 式 (13.48) 描 述 的 
Lyapunov 函数 五 满足 条 件 

dE 

dż 

— E Lyapunov BK E AKARA, RALAR EEA Lyapunov 定理 1 推出 。 


<0 


Hopfield 模型 作为 Cohen-Grossberg 定理 的 特例 

对 一 个 连续 的 Hopfield 模型 ， 通 过 比较 式 (13. 47) 和 式 (13. 20)， 我 们 可 以 得 到 Hopfield 
模型 和 Cohen-Grossberg 定理 之 间 的 对 应 关系 ， 这 种 关系 如 表 13.3 所 示 。 在 式 (13..48) 中 运用 
此 表 ， 就 可 以 得 到 连续 的 Hopfield 模型 的 Lyapunov RX: 


=— 1 iy Des pia); Co) + oe I; Jg; Cw do (13. 52) 


i=l j= 


FL SEER FETE BBA p 由 式 (13. 23) 定 义 。 
表 13.3 Cohen-Grossberg 定理 和 Hopfield 模型 的 对 应 关系 








Cohen-Grossberg 定理 Hopfield 模型 Cohen- Grossberg 定理 Hopfield 模型 
uj Cio; j j 1 
bj; (uj;) 一 《wj /Ri 十 万 ji T Wj 





gi Cui) gi Cvi) 





接 下 来 ,我们 得 到 如 下 的 观察 结果 : 
1. giu) = z; 


2. f gi (wdv = F dr = z; 


3. oi (z)dm = E vdx = F g (zx) dz 
基本 地 ， 关 系 式 2 和 3 通过 应 用 z=w(z) 得 到 。 这 样 ， 在 式 (13. 52) 的 Lyapunov 函数 中 运用 
这 些 观察 就 可 以 得 到 和 我 们 早先 描述 的 相同 的 结果 ， 参看 式 (13. 28) 。 然 而 ， 尽 管 mw Co) 必须 是 
输入 的 非 减 函数 ， 但 为 使 式 (13. 52) 描 述 的 通用 Lyapunov 函数 成 立 ， 并 不 需要 具有 逆 。 
Cohen-Grossberg 定理 是 有 广泛 应 用 的 神经 动力 学 的 一 个 基本 原理 (Grossberg, 1990), 
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在 下 一 节 我 们 考虑 这 个 重要 定理 的 另 一 个 应 用 。 
13.9 盒 中 脑 状 态 模 型 


在 这 一 节 中 ， 我 们 通过 学 习 盒 中 脑 状 态 (brain state ina box, BSB) 模型 来 继续 联想 记忆 
的 神经 动力 学 的 分 析 。 该 模型 首先 由 Anderson 等 (1977) 描述 。BSB 模型 基本 上 是 一 个 带 幅 
度 限制 的 正 反馈 系统 ， 该 模型 是 由 一 组 反馈 回 自身 的 高 度 互 连 的 神经 元 组 成 。 模 型 用 内 置 的 正 
反馈 来 放大 输入 模式 ， 直 到 模型 中 的 所 有 神经 元 饱和 。 这 样 ，BSB 模型 可 以 看 作 一 个 分 类 器 ， 
在 该 分 类 器 中 ， 给 定 一 个 模拟 输 人 模式， 产生 一 个 由 模型 稳定 状态 描述 的 数字 表示 。 
用 W 表示 对 称 权 值 短 阵 ， 该 矩阵 的 最 大 特征 值 为 正 实数 。 用 x(0) 表 示 模 型 的 初始 状态 向 
量 ， 代 表 输 入 激活 模式 。 假 定 模型 中 有 NN 个 神经 元 。 模 型 的 状态 向 量 是 NAN, WHNXN 
矩阵 。BSB 算法 由 下 面 两 个 方程 完全 定义 ， 
y(n) 一 x(n) + BWxtn) (13. 53) 
x(n + 1)= p(y(n)) (13. 54) 
其 中 6 是 一 个 称 为 反馈 因子 的 正 的 小 常数 ，x(z) 是 模型 在 时 刻 n 的 状态 向 量 。 图 13. 15a 显示 
式 (13. 53) 和 式 (13. 54) 的 框图 的 组 合 。 方 框 W 代表 一 个 单 层 线性 神经 网 络 ， 如 图 13. 15b 所 
R. MERA p 是 一 个 作用 在 y;(n) 上 的 分 段 线 性 函数 ， y; (nm) 是 向 量 yCn) 的 第 ;个 分 量 ， 如 下 
所 示 (参见 图 13. 16); 


十 1， 如 果 yj(n) >+1 
z;(n+ 1) = gly; n) =| wR—-l<y,™m <+1 (13. 55) 
一 1， wR yj) < 一 1 
式 (13. 55) 限 制 BSB 模型 的 状态 向 量 处 于 中 心 在 原点 的 一 个 N 维 单位 立方 体 中 。 
反馈 因子 单位 延迟 


可 ol Leer 
“K — 














输出 








图 13.15 a) 盒 中 脑 状态 (BSB) 模型 框图 的 组 合 ; b) 权 值 矩 阵 W 表示 的 线性 联想 器 的 信号 流 图 

算法 如 下 进行 : 一 个 激活 模式 x(0) 作 为 一 个 初始 状态 向 
量 输 入 BSB 模型 ， 式 (13. 53) 用 来 计算 向 量 yY(0)， 式 (13. 54) 
用 来 截断 yY(0) ， 获 得 更 新 状态 向 量 x(1) 。 接 着 ，x(1) 通 过 式 
(13. 53) 和 式 (13. 54) 循 环 得 到 x(2)。 这 个 过 程 一 直 重 复 直 到 
BSB 模型 达到 一 个 稳定 状态 ， 该 状态 代表 超 立 方 体 的 一 个 角 
点 。 直 觉 上 ，BSB 模型 的 正 反馈 引起 初始 状态 向 量 x(0) 的 网 
几 里 得 长 度 〈 范 数 ) 随和 迭代 次 数 的 增加 而 增加 ， 直 到 它 撞 到 
盒子 〈 单 位 超 立 方 体 ) 的 壁 上 ， 然 后 顺 着 壁 滑行 ， 最 终 停 在 
盒子 的 一 个 稳定 角 点 上 ， 在 这 里 它 继续 “推进 ” 却 不 能 脱离 
盒子 (Kawamoto and Anderson 1985), 这 就 是 该 模型 名 字 图 13.16 ”BSB 模型 使 用 的 分 眉 
的 由 来 。 线性 函数 


oy) 
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BSB 模型 的 Lyapunov PA Bt 

重新 定义 BSB 模型 可 以 作为 由 式 (13. 16) 描 述 的 神经 动 
力学 模型 的 一 个 特例 〈Grossberg，1990)。 为 了 看 到 这 一 点 ， 首先 以 下 述 形式 重 写 由 式 
(13.53) 和 式 (13. 54) 描 述 的 BSB 算法 的 第 ; 个 组 成 部 分 : 


N 
zi 十 D =(P rm), jf = 1,2.05N (13. 56) 
i=1 


系数 cx 由 
ci = Ou + Bu, (13. 57) 

定义 ， 其 中 s, X Kronecker delta 函数 ， 仅 当 7 一 ;时 为 1， 其 余 情 况 为 0; wi EIEE WH 
i 个 元 素 。 式 (13. 56) 是 离散 的 时 间 形 式 。 为 了 进一步 处 理 ， 重 新 用 连续 时 间 形 式 写 出 它 的 
公式 

Sa () = zt) to( Dene) sj = 12N (13.58) 
EPRE L 对 所 有 的 7 都 为 0。 然 而 ， 为 了 应 用 Cohen- Grossberg 定理 ， 必 须 进 一 步 把 式 
(13. 58) 转 换 成 加 性 模型 的 形式 。 我 们 可 以 通过 引入 一 组 新 变量 


u(t) = Mori) (13. 59) 
来 做 到 这 点 。 然后， 通过 式 (13. 57) 中 cy VRE, RA 
z(t) = Mews (13. 60) 
相应 地 ， 重 置式 (13. 58) 的 模型 为 等 价 形式 。 
fu =— (1) + Segui), j= 12,,N (13. 61) 


现在 ， 我 们 准备 把 Cohen- Grossberg 定理 应 用 到 BSB 模型 上 。 通 过 比较 式 (13.61) 和 式 
(13. 47)， 得 到 如 表 13. 4 所 示 的 BSB 模型 和 Cohen-Grossberg 定理 的 对 应 关系 。 因 此 ， 把 表 
13. 4 的 结果 用 于 式 (13. 48) ， 就 得 到 BSB 模型 的 Lyapunov BM: 


E=-+)) Vevey pu) + D |" w (odo (13. 62) 

其 中 w (四 是 sigmoid BK gi:(v) 对 它 的 参数 的 一 阶 导 数 。 最 后 ， 将 式 (13. 55) 、 式 (13. SDAA 

(13. 59) 的 定义 代入 式 (13. 62) ， 就 能 用 原始 状态 向 量 定义 BSB 模型 的 Lyapunov (ERD 函数 
如 下 (Grossberg, 1990): 

E =— £5 D>) wizz: =— Ex" wx (13. 63) 


i=1 j=l 


表 13. 4 Cohen- Grossberg 定理 和 BSB 模型 的 对 应 关系 








Cohen- Grossberg 定理 






Cohen- Grossberg 定理 











uj aj Cu;) 





Cji 





在 13. 7 节 中 对 Hopfield 网 络 Lyapunov 函数 的 估计 ， 假 定 模型 的 非 线性 sigmoid 函数 的 逆 的 导数 
存在 ， 此 条 件 是 通过 用 一 个 双 曲 线 正切 函数 来 满足 的 。 相 反 ， 在 BSB 模型 中 ， 当 第 j 个 神经 元 的 状 
态 变 量 是 十 1 或 一 1 时， 这 个 条 件 并 不 满足 。 尽 管 困难 重重 ，BSB 模型 的 Lyapunov 函数 能 通过 Co- 
hen- Grossberg 定理 来 估计 ， 从 而 清楚 地 表明 这 个 重要 定理 可 以 普遍 应 用 。 
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BSB 模型 动力 学 

在 由 Golden (1986) 进行 的 直接 分 析 中 ， 说 明 BSB 模型 实际 是 一 个 梯度 下 降 算 法 ,使 得 
由 式 (13. 63) 所 定义 的 能 量 函 数 玉 达到 最 小 。 然 而 BSB 模型 的 这 个 重要 性 质 要 假设 权 值 矩阵 W 
满足 下 面 两 个 条 件 : 

。 权 值 矩阵 W 是 对 称 的 ， 即 


W= WwW 
。 权 值 矩阵 W 是 半 正 定 的 ; 也 就 是 说 ， 关 于 W 的 特征 值 ， 我 们 有 
Amin 2 0 


其 中 Amine W 的 最 小 特征 值 。 

这 样 ， 当 在 时 间 n 十 1 时 的 状态 向 量 x(n 十 1) 与 在 时 间 n 的 状态 向 量 x(n) 不 同时 ，BSB 模 
型 的 能 量 函 数 互 随 z( 先 代 次 数 ) 的 增加 而 减 小 。 更 进一步 ， 能 量 函 数 E 的 最 小 点 定义 BSB 模 
型 的 平衡 状态 ， 模 型 由 

x(n 二 1) = x(n) 
表征 。 换 句 话说 ， 像 Hopfield 模型 一 样 ，BSB 模型 是 一 个 能 量 最 小 化 网 络 。 

BSB 模型 的 平衡 状态 由 单位 超 立 方 体 的 特定 的 角 点 和 它 的 原点 定义 。 在 后 一 种 情况 (在 原 
点 )， 状 态 向 量 的 任何 波动 ， 无 论 是 多 么 小 ， 都 被 模型 中 的 正 反馈 放大 ， 因 此 引起 模型 从 原点 
向 稳定 状态 漂移 ; 换 句 话说， 原点 是 一 个 鞍点 。 对 超 立 方 体 来 说 ， 要 使 它 的 每 个 角 点 作为 BSB 
SHA EER. KUM W 必须 满足 第 三 个 条 件 (Greenberg，1988): 

。 AEM WES AHHH (dominant), HENE 

w > D lwil BF HAL AN (13. 64) 


其 中 wy 是 WS ij 个 元 素 。 

为 了 使 平衡 状态 x 稳定 ， 也 就 是 为 了 使 单位 超 立方 体 的 一 个 特定 角 是 一 个 固定 点 吸引 子 
Cattractor) ， 在 单位 立方 体 中 必须 有 一 个 吸引 答 N(x)， 使 得 对 WCx) 中 的 所 有 初始 状态 向 量 
x(0) ，BSB 模型 都 收敛 于 x。 为 了 使 单位 超 立方 体 的 每 一 个 角 点 是 一 个 可 能 的 点 吸引 子 ， 权 值 
和 矩阵 必须 满足 第 四 个 条 件 (Greenberg, 1988): 

。 ER W 是 强 对 角 优 势 的 ， 表 示 为 

wy >) lw;|+a 当 了 一 1 2 (13. 65) 


Khe 是 一 个 正 的 常数 。 
这 里 讨论 的 重点 是 : 如 果 BSB 模型 的 权 值 矩阵 W 只 是 对 称 的 和 正 半 定 的 ， 单位 立方 体 中 
只 有 一 些 〈 不 是 所 有 ) 角 点 是 点 吸引 子 。 为 了 使 单位 立方 体 中 的 所 有 角 点 是 潜在 的 点 吸引 子 ， 
BUERE W 也 必须 满足 式 (13. 65) ， 式 (13. 65) 当然 蕴含 式 (13. 64). 


RR 

BSB 模型 的 一 个 自然 应 用 是 聚 类 (Anderson，1995)。 这 是 因为 单位 超 立 方 体 的 稳定 角 点 作为 有 
吸引 倪 的 点 吸引 子 ， 会 把 状态 空间 划分 为 相应 的 明确 定义 的 区 域 。 因 此 ， BSB 模型 可 以 用 作 一 种 无 
监督 的 育 类 算法 ， 其 中 单位 超 立方 体 的 每 一 个 稳定 角 点 代表 相关 数据 的 一 个 “ 聚 类 ”。 由 正 反馈 所 提 
供 的 自 放 大 符合 在 第 8 章 描述 的 自 组 织 规则 1) 是 聚 类 性 质 的 一 个 重要 成 分 。 

例 3 自 联想 

对 于 一 个 包含 两 个 神经 元 的 BSB 模型 。2X2 权 值 矩阵 W 定义 为 

| 0.035 —0. ne | 

—0.005 0.035 
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此 权 和 矩阵 是 对 称 正定 的 ， 并 满足 式 (13. 65), 
图 13. 17 的 四 个 不 同 部 分 分 别 对 应 初始 状态 x(0) 的 四 种 不 同 的 赋值 ， 如 下 所 示 : 
(a) x(0) = [0. 1,0. 2]? 
Cb) x(0) = [— 0. 2,0. 3]” 
Ce) x(0) = [~ 0.8, 一 0.4]7 
(d) x(0) = [0.6,0.1]? 




































































(-1, +1) (41; +1) 
0 
(-1, -1) Gale =1) 
a) 
(-1, +1) (+1, +1) 
0 
(-1, -1) (+1, -1) (-1, -1) (41,1) 


c) d) 


图 13.17 BSB 模型 计算 机 实验 的 罗 线 ， 四 种 不 同 初 始 条 件 下 的 操作 : 
。 四 个 阴影 代表 模型 的 吸引 盆 
。 相应 的 模型 的 轨迹 用 红线 表示 
。 四 个 角落 ， 也 就 是 轨迹 终结 的 地 方 ， 用 黑色 表示 
图 中 阴影 区 域 是 标记 模型 的 四 个 吸引 盆 。 该 图 清晰 地 阐明 当 模 型 的 初始 状态 在 一 个 特定 的 
吸引 贫 时 ， 模 型 固有 动力 学 驱使 权 值 矩 阵 WCn) 随 着 迭代 次 数 n 的 增加 而 增加 ， 直 到 网 络 状 态 
x(n) 终 止 在 一 个 固定 点 吸引 子 〈 即 一 个 2X2 正方 形 的 角 点 )， 此 吸引 子 属于 那个 吸引 盆 。 特 别 
有 趣 的 是 图 d 中 的 轨迹 : 初始 条 件 x(0) 在 第 一 象限 ， 然 而 轨迹 在 第 四 象限 终止 于 角 点 〈 十 1， 
一 1) ， 因 为 那 就 是 合适 的 吸引 盆 中 点 吸引 子 所 在 的 地 方 。 
在 这 个 例子 中 ， 具 有 二 神经 元 的 BSB 模型 的 方块 状态 空间 被 完全 地 分 为 四 个 不 同 的 吸引 
盆 ; 每 个 盆 包 括 方 块 的 一 个 角 ， 代 表 具 有 最 小 能 量 的 稳定 状态 。 因 此 ，BSB 模型 可 以 视 为 自 联 
想 网 络 的 例子 ， 是 从 这 个 意义 上 说 的 ， 即 所 有 的 点 都 位 于 其 中 一 个 吸引 盆 ， 而 它们 每 个 都 与 一 
个 最 小 能 量 稳定 状态 点 相关 。 


13.10 ”奇异 吸引 子 和 混沌 


到 目前 为 止 ， 在 我 们 讨论 的 神经 动力 学 中 ， 集 中 于 由 固定 点 吸引 子 所 刻画 的 非 线性 动力 学 
系统 的 行为 。 在 这 一 节 考 虑 一 种 称 为 奇异 吸引 子 的 另 一 类 吸引 子 ， 它 们 刻画 阶 数 高 于 2 的 某 种 
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æ 


非 线性 动力 学 系统 。 

一 个 奇异 吸引 子 表现 出 高 度 复 杂 的 混乱 行为 。 使 研究 奇异 吸引 子 和 混沌 特别 有 趣 的 是 : A 
为 系统 运行 是 由 固定 规则 所 支配 的 ， 所 以 系统 是 确定 的 。 然 而 这 样 一 个 只 有 少数 几 个 自由 度 的 
系统 却 有 如 此 复杂 的 行为 以 至 于 它 看 起 来 是 随机 的 。 确 实 ， 随 机 性 在 以 下 意义 上 是 基本 的 : 一 
个 混沌 (chaos) 时 间 序 列 的 二 阶 统计 性 似乎 显示 它 是 随机 的 。 然 而 ， 不 像 一 个 真正 的 随机 现 
象 ， 一 个 混沌 系统 所 展示 的 随机 性 并 不 随 着 收集 信息 的 增加 而 减少 。 原 则 上 ， 一 个 混沌 系统 未 
来 的 行为 完全 由 它 的 过 去 所 决定 。 但 实际 上 ， 初 始 条 件 选 择 的 任何 不 确定 性 ， 无 论 是 多 么 小 ， 
随 着 时 间 量 指数 增加 。 这 样 即使 一 个 混沌 系统 的 动态 行为 在 短期 内 可 以 预测 ， 却 不 可 能 预测 系 
统 的 长 期 行为 。 因 此 ， 一 个 混沌 时 间 序 列表 现 这 样 一 种 矛盾 : 它 的 产生 是 由 一 个 确定 动态 系统 
支配 的 ， 然 而 它 看 起 来 却 是 随机 的 。 混 沌 现象 的 这 种 属性 最 初 是 Lorenz 在 发 现 一 种 吸引 子 时 
所 强调 的 ， 并 以 他 的 名 字 命名 (Lorenz，1963)。 

在 一 个 非 线性 动态 系统 中 ， 当 吸引 子 中 具有 相近 初始 条 件 的 不 同 轨迹 随 着 时 间 增 加 而 逐渐 
分 离 时 ， 我 们 就 说 系统 具有 一 个 奇异 吸引 子 (strange attractor)， 并 且说 系统 本 身 是 混沌 的 
(chaotic) 。 换 句 话 说， 使 得 一 个 吸引 子 奇异 的 本 质 属性 是 对 初始 条 件 的 敏感 性 依赖 。 这 里 ， 繁 
感性 意味 着 如 果 两 个 相同 的 非 线性 系统 开始 于 稍 有 差别 的 初始 条 件 ， 即 分 别 为 x 和 x+ 二 gs， 这 里 
g 是 一 个 非常 小 的 量 ， 它 们 的 动态 状态 在 状态 空间 中 会 相互 获 开 ， 并且 它们 的 间隔 平均 而 言 将 
按 指数 增加 。 
混沌 动力 学 的 不 变 特征 

两 个 主要 特征 分 数 维 (fractal dimensions) 和 Lyapunov 指数 ， 已 经 成 为 一 种 混沌 过 程 的 
分 类 器 。 分 数 维 刻画 一 个 奇异 吸引 子 的 几何 结构 。 术 语 “ 分 形 ” (fractal) 是 由 Mandelbrot 
(1982) 提出 的 。 不 像 整数 维 (如 二 维 平面 、 三 维 空间 )， 分 数 维 并 不 是 整数 。 对 于 Lyapunov 
指数 ， 它 们 描述 吸引 子 的 轨道 如 何 随 动态 系统 的 演化 而 运动 。 这 两 个 混沌 动态 系统 的 不 变 特征 
将 在 下 面 讨论 。 术 语 “ 不 变 ” 表 明 : 一 个 混沌 过 程 的 分 数 维和 Lyapunov 指数 在 该 过 程 坐 标 系 
统 的 光滑 非 线 性 变换 下 保持 不 变 。 

分 数 维 
考虑 一 个 奇异 吸引 子 ， 它 在 a 维 状态 空间 的 动力 学 由 
x(n+ 1) = FAG), n= 0,1,25°" (13. 66) 
描述 ， 它 是 式 (13. 2) 的 离散 时 间 形式 。 通 过 设置 :一 nAt， 这 很 容易 看 出 ， 其 中 At 是 采样 周期 。 
假定 At 足够 小 ， 我 们 可 以 相应 地 设置 


axe) = Aixa At) — x(nAt) | 
这 样 ， 我 们 可 以 得 到 式 (13. 2)? 的 离散 时 间 形 式 如 下 : 
ixar + At) —x(nAt)] = F(x(nAt))， 对 很 小 的 At 


为 了 表示 方便 ， 令 At 一 1 并 对 项 进行 重新 排列 ， 得 到 
X(2 十 1) = x(n) +F(x(n)) 
它 能 写成 式 (13. 66) 的 形式 ， 只 要 简单 地 重新 定义 向 量 值 函数 FC(*〉 吸收 x(n). 
回 到 式 (13. 66) ， 假 定 我 们 在 吸引 子 的 轨道 上 或 附近 的 一 个 位 置 y 处 构造 半径 为 > 的 小 球 。 
那么 ， 我 们 对 吸引 子 可 以 定义 点 的 自 然 分 布 (natural distribution) 如 下 : 


pty) = lim = acy — xm) (13. 67) 
其 中 8(*) Æ d 4 delta 函数 ，N 是 数据 点 的 个 数 。 注 意 N 在 用 法 上 的 变化 。 自 然 分 布 p(y) 对 


450 ' 第 13 童 神经 动力 学 


PT FRG 子 扮演 的 角色 就 像 -个 概率 密度 函数 对 一 个 随机 变量 那样 。 相 应 地 ， 我 们 可 以 随 


动态 系统 演化 定义 函数 f(y) 的 不 变量 为 多 重 积 分 了 
f=| feydy (13. 68) 


一 个 感 兴趣 的 函数 fy) 是 使 我 们 能 衡量 当 小 球 半径 ”趋向 于 0 时， 小 球 内 的 点 的 数目 是 如 何 变 
化 的 。 注 意 d 维 球 所 占 的 空间 体积 正比 于 rx”， 因 此 ， 通 过 观察 在 状态 空间 中 吸引 子 上 的 点 的 密 
度 在 小 距离 范围 内 如 何 变 化 ， 我 们 可 以 了 解吸 引子 的 维 数 。 
球 的 中 心 y 和 在 时 刻 n 时 的 点 x《n) 之 间 的 欧 几 里 得 距离 是 ey 一 x(n) ||. Ate, RR 
ly—x) |] <r 
或 等 价 地 
r— ly~ xm || >0 
则 点 x(w) 在 半径 为 7 的 球 内 。 因 此 ， 在 所 描述 情况 下 的 函数 f(x) 可 以 写成 一 般 形式 


N 





fœ = (sr Hy xc ) (13. 69) 
ben : 
其 中 4 是 一 个 整数 ，9(") 是 由 
l, 当 z>0 
Cz) = l Ye 


定义 的 Heaviside 函数 。 将 式 (13. 67) AIK (13. 69) 代 入 式 (13. 68), 得 到 一 个 新 的 依赖 于 gq 和 7 
的 函数 Cd， r), 如 下 所 示 : 
Clan) =f (hy De a= yx Id)” (Rey — xm))) dy 8. 70) 
因此 ， 利 用 delta 函数 的 筛选 (sifting) 性 质 ， 也 就 是 对 某 些 函数 gC(*) 的 关系 
| g(y)8(y — x(n) dy = g(x(n)) 


并 交换 求 和 顺序 ， 可 以 重新 定义 函数 Cl(q， ORF: 


N 
—~1ixcy 1 加 m 
Cian) = NÈ (No 名 gr 一 | x(n) 一 xCe) || >) (13.71) 


函数 Clq, 1) BR AAA KX BM (correlation function)*， 用 文字 的 方式 定义 如 下 : 


吸引 子 的 相关 函数 用 Clg,r) 表 示 ， 是 用 来 度量 吸引 子 上 两 点 x(n) 和 XxX(k) 对 于 某 一 整数 g 
VASE Br 隔 开 的 概率 。 


在 式 (13. 71) 的 定义 中 数据 点 的 总 数 N 假定 很 大 。 
相关 函数 CC(g,7) 是 吸引 子 本 身 的 不 变量 。 虽 然 如 此 ， 在 实际 中 我 们 集中 在 7 很 小 时 Clg， 
7) 的 行为 。 这 个 极限 行为 由 
Clger) rT (13. 72) 
描述 ， 其 中 D, 称 为 吸引 子 的 分 数 维 ， 假 定 它 是 存在 的 。 在 式 (13. 72) 两 边 取 对 数 ， 得 到 D, 的 
正式 定义 


_ 4... log C(g,r) 7 
D, = lim (q— log r (13. 73) 


然而 ， 由 于 通常 仅 有 有 限 的 数据 点 ， 半 径 > 必须 恰好 足够 小 ， 使 得 有 足够 的 点 落 在 球 内 。 对 一 
个 给 定 的 g， 可 以 根据 CCq,7) 作 为 log r 的 线性 函数 的 斜率 确定 分 数 维 D, o 
对 g=2， 分 数 维 D, 的 定义 具有 一 个 适宜 于 可 靠 计算 的 简单 形式 。 所 得 维 数 D 被 称 为 吸 
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引子 的 相关 维 数 《correlation dimension) (Grassberger and Procaccia，1983) 。 相 关 维 数 反 映 
固有 动态 系统 的 复杂 性 ， 并 且 限 定 描述 该 系统 所 需 的 自由 度 。 
Lyapunov 指数 

Lyapunov 指数 是 描述 吸引 子 未 来 状态 不 确定 性 的 统计 量 。 更 具体 地 ， 它 们 量化 在 移 
向 吸引 子 时 邻近 轨道 相互 分 离 的 指数 速度 。 假 定 x(0) 是 初始 条 件 ，{x(z) ,mn 一 0,1,2…}) 是 
相应 的 轨道 。 考 虑 从 初始 条 件 x(0) 向 和 轨道 相 切 的 向 量 yY(0) 方 向 上 的 一 个 无 穷 小 偏 移 ， 该 向 
量 的 演化 确定 被 扰动 轨道 {y(n) ,n= 二 0,1,2,…) 从 未 受 扰 动 轨道 {x(Cz) ,2 一 0,1,2…)}》 WEAF 
小 偏 移 的 演化 。 特 别 地 ， 比 值 y(n)/ yo |] 定义 轨道 从 xCn) 的 无 穷 小 偏 称 。 当 y(n) 十 
yO 时 ， 比 值 y(n)/ Il yCO) | 为 无 穷 小 偏 移 的 增长 因子 : SlyMi<lyorn, EA 
穷 小 偏 移 的 缩减 因子 。 对 初始 条 件 x(0) 和 初始 偏 移 om 一 y(0)/ || yCO) ||, Lyapunov 指数 被 定 
义 为 : 





rl lyo | 
AKCXCO) ,0) = lim a log( Tyco | ) (13. 74) 


一 个 4 维 混沌 过 程 共 有 d 个 Lyapunov 指数 ， 可 为 正 、 负 或 0。 正 的 Lyapunov 指数 说 明 状 态 空 
间 中 一 轨道 的 不 稳定 性。 这 种 情况 也 可 以 表述 为 ， 

。 正 的 Lyapunov 指数 导致 混沌 过 程 对 初始 条 件 的 敏感 性 。 

。 负 的 Lyapunov PREM ME PRAY RRM. 

。 一 个 为 0 的 Lyapunov 指数 表明 用 以 产生 混沌 的 固有 的 动态 系统 可 用 一 个 联 立 的 非 线 性 

微分 方程 组 描述 ， 即 该 混沌 过 程 是 一 个 流 。 

在 a 维 状态 空间 中 体积 依 exp(LC 十 ia: 十 … 十 Mo)) 变 化 ， 这 里 工 是 未 来 的 时 间 步 数 。 因 此 
对 一 个 耗 散 过 程 ， 所 有 Lyapunov 指数 之 和 必须 是 负数 。 这 是 状态 空间 的 体积 要 随时 间 增 加 而 
缩减 所 必须 满足 的 条 件 ， 它 是 物理 实现 的 一 个 要 求 。 
Lyapunov 维 数 

给 定 Lyapunov 谱 A1 sA29**sÀa» Kaplan and Yorke (1979) 提出 了 一 个 奇异 吸引 子 的 Lya- 
punov 维 数 定义 如 下 : 


ya 


D, = K +- 
: |A xn | 





(13. 75) 
其 中 K 是 满足 下 列 两 个 条 件 的 整数 ， 
Da >of DA <0 

通常 ，Lyapunov 维 数 D， 和 相关 维 数 D: 的 大 小 大 体 相 同 。 这 是 混沌 过 程 的 一 个 重要 属性 。 也 
就 是 说 ， 虽 然 Lyapunov 维 数 和 相关 维 数 是 用 完全 不 同 的 方式 定义 ， 但 对 一 个 奇异 吸引 子 ， 它 
们 的 值 是 非常 接近 的 。 
混沌 过 程 的 定义 

在 整 章 中 我 们 说 到 了 混沌 过 程 ， 但 没有 正式 定义 它 。 根 据 我 们 对 Lyapunov 指数 的 了 解 ， 
可 以 给 出 如 下 定义 : 

一 个 混沌 过 程 是 由 一 个 非 线 性 确定 系统 产生 的 ， 它 至 少 有 一 个 正 的 Lyapunov 指数 。 

至 少 有 一 个 正 的 Lyapunov 指数 是 对 初始 条 件 敏感 性 成 立 的 必要 条 件 ， 对 初始 条 件 敏感 是 
一 个 奇异 吸引 子 的 特点 。 l 
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最 大 的 Lyapunov 指数 也 定义 一 个 混沌 过 程 的 可 预测 范围 。 特 别 地 ， 一 个 混沌 过 程 的 短期 
可 预测 性 近似 等 于 最 大 Lyapunov 指数 的 倒数 (Abarbanel，1996)。 


13. 11 混沌 过 程 的 动态 重 构 


动态 重 构 可 以 定义 为 映射 的 辨识 ， 该 映射 对 未 知 的 mx 维 动态 系统 提供 模型 。 这 里 ， 我 位 
的 兴趣 是 对 一 个 已 知 为 混沌 的 物理 系统 产生 的 时 间 序 列 进行 动态 建 模 。 换 句 话 说 ， 给 定 一 时 间 
序列 (y(n)}) 半 !， 我 们 希望 建造 一 个 模型 来 捕获 产生 可 观察 y(n) 的 潜在 动力 学 。 如 我 们 在 前 面 
一 节 开 头 指出 的 那样 ，N 代表 样本 大 小 。 动 态 重 构 的 主要 动机 是 从 这 样 一 个 时 间 序 列 中 得 到 实 
际 意 义 ， 从 而 绕 开 对 潜在 动力 学 的 详细 数学 知识 的 需要 。 感 兴趣 的 系统 一 般 太 复杂 以 至 于 不 能 
用 数学 方式 刻画 它 。 我 们 仅 有 的 可 用 信 息 包 合 在 对 系统 的 一 个 可 观测 量 进 行 测量 所 得 到 的 时 间 
序列 内 。 

DAB MHC’ 最 基本 的 结果 是 一 个 称 为 延迟 嵌入 (delay embedding) 定理 的 几何 定理 ， 
该 定理 是 由 Takens (1981) 提出 的 。Takens 考虑 一 个 无 噪声 系统 ， 集 中 于 延迟 坐标 映射 〈de- 
lay coordinate map) 或 预测 (predictive) 模型 ， 映 射 或 模型 是 由 表示 动态 系统 的 一 个 可 观测 
量 所 表示 的 时 间 序 列 构造 的 。 特 别 地 ，Takens 证 明 : 如 果 动 态 系统 和 可 观测 量 是 一 般 的 〈ge- 
neric)， 那 么 从 一 个 d 维 光 滑 紧 流 形 到 RR ! 的 延迟 坐标 映射 在 该 流 形 上 是 微分 同 胚 (diffeo- 


morphism), XE d 是 动态 系统 状态 空间 的 维 数 〈 微 分 同 胚 已 在 第 7 章节 讨论 ) 。 
为 了 用 信号 处 理 术语 对 Takens 定理 作 解 释 ， 首 先 考 虑 一 个 未 知 的 动态 系统 ， 该 系统 在 离 
散 时 间 的 演化 由 非 线性 差分 方程 
x(n+1) = F(x(n)) (13. 76) 


描述 ,其 中 x(n) 是 系统 在 时 刻 n 的 d 维 状 态 向 量 ，F(*) 是 一 个 向 量 值 函数 。 这 里 假定 采样 周 
期 为 1。 系 统 输出 的 时 间 序 列 {y(n)} 用 状态 向 量 xCz) 定 义 如 下 : 
y(n) = g(x(n)) + v(n) (13. 77) 

其 中 g(*) 是 标量 值 函数 ，v( 轨 表示 加 性 噪声 。 了 噪声 v(n) 解 释 为 在 观测 yoo 中 的 不 完全 和 不 
精确 的 综合 效果 。 式 (13. 76) 和 式 (13.77) 描 述 动态 系统 的 状态 空间 行为 。 根 据 Takens 定理 ， 
4 oln) =0 时 多 变量 动态 系统 的 几何 结构 可 以 从 新 向 量 

yr(n) = Ly(n) y(n — r), y(n — (D1)7)] (13. 78) 
构成 的 DD 维 空间 中 观察 的 y(n) 展现 ， 其 中 :是 一 个 称 为 归 一 化 嵌入 延迟 的 正 整数 。 也 就 是 说 ， 
对 不 同 的 离散 时 间 n， 给 定 观 察 值 y(n)， 它 和 未 知 动态 系统 的 一 个 可 观察 值 分量) 有关， 假 
€ D 之 24 十 1， 使 用 DD 维 向 量 yx (mn) 动态 重 构 是 可 能 的 ， 其 中 d 是 系统 状态 空间 的 维 数 。 以 后 
我 们 就 称 这 个 陈述 为 嵌入 -延迟 定理 。 对 动态 重 构 来 说 ， 条 件 D 之 24d 十 1 是 充分 的 但 不 是 必要 
h. FFRAE D 的 过 程 称 为 嵌入 。 能 够 实现 动态 重 构 的 最 小 的 整数 DD 称 为 嵌入 维 数 ， 用 Dz 
表示 。 

mA TR EMAAR: 重建 空间 中 点 yoyr (n 十 1) 的 演化 服从 原始 状态 空间 
中 未 知 动态 系统 x(n) 一 x(n 十 1) 的 演化 。 也 就 是 说 ， 不 能 观察 的 状态 向 量 x(n) 的 许多 重要 属性 
可 以 在 由 只 (定义 的 重建 空间 中 毫 无 疑义 地 得 到 。 然 而 ， 为 了 获得 这 个 重要 结果 ， 我 们 需要 
A SER De MIA A BER r 的 可 靠 估计 ， 如 下 综述 : 

1. 充分 条 件 Die2dt 1 使 得 解除 吸引 子 一 个 轨道 的 自 相 交 成 为 可 能 ， 这 是 出 现在 轨道 投影 
AR AE RCT HRY a, PRA SER Ds 可 以 小 于 2d& 十 1。 推 荐 的 过 程 就 是 从 可 观测 数据 直接 估 
i+ Ds。 估 计 De 的 可 靠 方法 在 Abarbanel (1996) 中 描述 的 假 最 近邻 方法 。 在 此 方法 中 ， 系 统 
地 考察 数据 点 和 它们 的 近邻 ， 先 在 维 数 4 二 1， 然 后 4 二 2,… ,如 此 等 等 。 我 们 借以 确立 明显 近 
邻 停 止 时 的 条 件 ， 是 当 添 加 更 多 元 素 到 重 构 向 量 ye (n) 时 “不 被 投影 "， 这 样 就 获得 对 般 入 维 
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数 Ds 的 估计 。 

2. 很 不 幸 ， 延 迟 -圣人 定理 并 未 提 及 归 一 化 岩 入 延迟 r 的 选择 问题 。 事 实 上 ， 只 要 可 用 时 
闻 序 烈 无 限 长 ， 它 允许 用 任何 的 +t。 然而 ， 实 际 上 我 们 只 能 在 有 限 长 度 NN 的 观察 数据 上 工作 。 
选择 z 的 正确 方法 是 认识 到 归 一 化 嵌 人 延迟 r 对 y(n) 和 yln 一 z) 应 足够 大 ， 使 它们 基本 上 独 
立 ， 这 样 才 能 作为 重建 空间 的 坐标 ， 但 也 不 能 使 它们 完全 独立 ， 以 致 没有 任何 联系 。 满 足 这 个 
要 求 的 最 好 办 法 就 是 选择 特定 的 zt 使 得 y(n) 和 y(n 一 rt) 之 疗 的 互信 息 获 得 它们 第 一 个 最 小 值 
(Fraser，1989)。( 互 信息 在 第 10 章 讨 论 .) 
递归 预测 

从 前 面 讨论 中 知道 ， 动 态 重 构 问 题 可 以 解释 为 恰当 地 表示 信号 动力 学 (嵌入 步骤 ) 和 建造 
一 个 预测 映射 (识别 步骤 )。 因 此 ， 实 际 上 我 们 用 下 面 的 网 络 拓扑 结构 来 进行 动态 建 模 。 

。 短期 记忆 (例如 延迟 线 记 忆 〉 结构 实现 嵌 人 ， 由 此 根据 可 观察 的 y(n) 和 它 的 延迟 形式 

来 定义 重建 向 量 yx (n)， 参 见 式 (13. 78)。 
。 训练 作为 单 步 预测 器 (如 神经 网 络 ) 的 多 输入 单 输 出 〈MISO) 自 适 应 非 线性 系统 ， 用 
它 识 别 未 知 映 射 f: RR” 一 RR'， 定 义 如 下 : 
y(n +1) = flyr(n)) (13. 79) 

式 (13.79) 描 述 的 预测 映射 是 动态 建 模 的 中 心 问 题 ， 一 旦 确定 ， 演 化 ye (n) 一 yr (n+ DERE 
知 ， 由 此 确定 未 知 演化 x(n) 一 x(n 十 1)。 

现在 ， 假 设 有 一 个 严格 的 理论 来 帮助 我 们 决定 非 线 性 预测 器 是 否 已 成 功 地 识别 这 个 未 知 映 
射 A。 在 线性 预测 中 ， 最 小 化 预测 误差 的 均 方 值 可 以 得 到 一 个 精确 的 模型 。 然 而 ， 混 沌 时 间 序 
列 不 同 。 同 一 个 吸引 子 的 两 个 轨道 在 每 次 采样 基础 上 都 有 很 大 的 不 同 ， 所 以 最 小 化 预测 误差 的 
均 方 值 对 一 个 成 功 的 映射 仅 是 必要 条 件 而 不 是 充分 条 件 。 

动态 不 变量 〈 即 相关 维 数 和 Lyapunov 指数 )， 度 量 吸 引子 的 
全 局 属性 ， 所 以 它们 应 该 可 以 判断 动态 建 模 的 成 功 与 否 。 因 此 ， 
检验 动态 建 模 的 一 个 实际 方法 是 在 奇异 吸引 子 上 挑选 一 点 ， 然 后 
反馈 输出 到 其 输入 成 为 一 个 自治 系统 ， 如 13. 18 图 所 示 。 这 样 一 
个 操作 称 为 办 代 预 测 或 递归 预测 。 一 旦 初始 化 完成 ， 该 自治 系统 。 图 13. 18 在 混沌 过 程 动 态 重 





的 输出 就 是 动态 重 构 过 程 的 一 个 实现 。 这 当然 要 假定 预测 器 开始 adipi 
时 已 被 正确 地 设计 。 
对 于 可 靠 动态 重 构 ， 我 们 可 以 把 重建 向 量 yn) 定义 为 一 个 完全 的 m 维 向 量 
yr) = Ly(n) yn ml) yn —mt+1) 17 (13. 80) 
其 中 m 是 一 个 整数 ， 定 义 为 
m = Der (13. 81) 


这 种 重建 向 量 ya (n) 的 形式 比 式 (13. 78) 提 供 的 形式 对 可 预测 模型 提供 更 多 的 信息 ， 因 此 可 能 
产生 一 个 更 精确 的 动态 重 构 。 然 而 ， 这 两 种 形式 有 一 个 共同 的 特点 : 它们 的 组 成 都 由 嵌入 维 数 
Da 的 知识 唯一 定义 。 在 任何 情况 下 ， 明 智 的 方法 是 用 最 小 允许 的 值 D， 也 就 是 De， 来 最 小 化 
加 性 噪声 v(a) 对 动态 重 构 质 量 的 影响 。 
动态 重 构 是 一 个 不 适 定 的 过 滤 问 题 

现实 中 ， 动 态 重 构 是 一 个 不 适 定 的 逆 问 题 。 之 所 以 这 样 说 是 因为 以 下 情况 极 有 可 能 发 生 ， 
即 破坏 对 于 逆 问 题 适 定 的 Hadamard 三 个 条 件 中 的 一 个 或 者 多 个 ， 这 点 在 第 7 章 明确 地 表 
wit: 

1. 由 于 一 些 未 知 的 原因 存在 条 件 可 能 被 破坏 。 
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2. 在 可 观察 时 间 序 列 上 ， 可 能 没有 充分 的 信息 足以 唯一 地 重建 非 线性 动态 系统 。 

3. 不 可 避免 地 出 现 加 性 噪声 和 观察 时 间 序 列 的 某 种 不 精确 都 会 增加 动态 重 构 的 不 确定 性 。 
特别 地 ， 如 果品 声 水 平 太 高 ， 连 续 性 标准 也 可 能 被 破坏 。 

那么 怎么 使 动态 重 构 问 题 适 定 呢 ? 答案 在 于 把 包含 关于 输入 -输出 映射 的 先 验 知识 的 某 种 
形式 作为 主要 要 求 。 换 句 话说 ， 在 预测 模型 的 设计 中 ， 为 了 解决 动态 重 构 问 题 需要 引入 某 种 形 
式 的 限制 (例如 输入 -输出 映射 的 光滑 性 )。 满 足 这 个 要 求 的 有 效 方法 是 用 Tikhonov 的 正则 化 
理论 ， 这 也 在 第 7 章 讨论 。 

男 一 个 需要 考虑 的 问题 是 预测 模型 以 足够 精度 解决 逆 问 题 的 能 力 。 在 这 个 背景 下 ， 用 神经 
网 络 建造 预测 模型 是 合适 的 。 特 别 地 ， 多 层 感知 器 或 径 向 基 函 数 网 络 的 通用 逼近 特性 意味 着 我 
们 利用 具有 适当 规模 的 这 种 或 那 种 神经 网 络 可 以 注意 重建 精度 的 问题 。 另 外 ， 由 于 刚才 说 明 的 
理由 我 们 需要 正则 化 的 解决 方法 。 理 论 上 ， 多 层 感知 器 和 径 向 基 函 数 网 络 都 适宜 正则 化 的 使 
H: 但 如 第 7 章 所 解释 ， 我 们 发 现在 径 向 基 函 数 网 络 中 包括 正则 化 理论 作为 它们 设计 的 整体 部 
分 ， 在 数学 上 易于 处 理 。 
案例 研究 ; Lorenz 吸引 子 的 动态 重 构 

为 了 曾 明 动态 重 构 的 思想 ， 我 们 考虑 有 三 个 联 立 常 微分 方程 组 的 系统 。 该 系统 由 Lorenz 
(1963) 从 低压 大 气 热 对 流 的 偏 微分 方程 组 的 Galerkin 近似 抽象 而 来 ， 它 成 为 测试 非 线 性 动态 
系统 思想 的 一 个 主要 方程 组 。Lorenz 吸引 子 的 方程 组 为 





PE r(t) + ay(@) 
axo =— rD zt) Hre) — y(t) 
dzo x(t) y(t) — be (t) (13. 82) 


Epo, r 和 6。 是 无 量 纲 参数 。 这 些 参数 的 典型 值 是 so 二 10, b=8/3, r= 28, 

图 13. 19 显示 在 两 个 具有 400 个 中 心 的 RBF 网 络 上 ， 使 用 基于 Lorenz 吸引 子 的 z( 轨 分 量 
的 带 曲 声 时 间 序 列 实 施 选 代 预 测 的 结果 。 信 噪 比 是 十 25 分 贝 。 为 了 设计 正则 化 的 RBF 网 络 ， 
我 们 使 用 以 下 参数 : 

输入 层 的 大 小 m= 20 


EW HBR A=10~° 
40- 

















一 上 一 L 1 ' ——l 
50 10 150 200 250 300 350 400 


图 13. 19 在 Lorenz 数据 上 正则 化 迭代 预测 (N=400, m=20), SNR= 
十 25 分 中， 实 曲线 为 实际 的 混沌 信号 ， 红 色 曲 线 为 重 构 信 和 号 
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用 式 (13. 81) 决 定 输入 层 的 大 小 ; 使 用 第 7 章 描 述 的 广义 交叉 验证 过 程 决定 正则 化 参数 。 

如 图 13. 9 所 示 ， 使 用 一 个 正则 RBF 网 络 ， 动 态 重 构 的 解 已 经 学 习 了 这 个 动力 学 系统 ， 是 
在 下 列 意义 上 说 : 在 迭代 预测 下 网 络 的 输出 十 分 近似 Lorenz 吸引 子 在 短 时 上 的 实际 轨迹 。 这 
个 结果 由 表 13. 5 中 的 事实 为 根据 ， 我 们 总 结 了 两 种 情况 下 的 Lorenz 数据 : 

(a) 信 噪 比 SNR=25 分 贝 的 Lorenz 系统 。 

(b) 用 表 13. 5 的 带 噪声 Lorenz 时 间 序 列 的 重建 数据 。 


表 13.5 用 Lorenz 系统 的 动态 重 构 试验 的 参数 小 结 


(a) 有 噪声 Lorenz RHE: 25 分贝 SNR b) 用 图 13. 19 的 有 了 噪声 Lorenz 数据 重 构 的 系统 

使 用 样本 数 : 35 000 产生 样本 数 〈 递 归 地 ) :35 000 

1. 归 一 化 嵌 人 延迟 ，r 一 4 1. 归 一 化 嵌入 延迟 ，r 一 4 

2. KAK, De=5 . ABR, De=3 

3. Lyapunov 指数 : Lyapunov 指数 : 

a1 =13. 268 9 Al =2. 5655 
de =5. 856 2 2 一 一 0. 627 5 
àa =—3. 1447 àa =—15. 034 2 
à4 = — 18. 008 2 4. 可 预测 范围 约 为 61 个 样本 
As =— 47. 057 2 
4. 可 预测 范围 约 100 个 样本 
注 ， 所 有 的 Lyapunov 指数 的 单位 为 奈 特 / 秒 。 如 第 10 章 讨论 的 那样 ， 奈 特 是 测量 信息 的 一 个 自然 单位 。 同 样 ， 在 情形 
(b) 中 ,动态 重 构 只 用 一 个 正 的 Lyapunov 阶 把 Lyapunov 谱 还 原 到 正确 的 个 数 3 (等 于 方程 的 个 数 )。 
用 带 噪声 数据 的 重建 数据 的 不 变量 和 用 无 噪声 Lorenz 数据 的 重建 数据 不 变量 相近 。 偏差 的 绝 
对 值 是 由 于 嵌入 重建 吸引 子 的 噪声 的 残留 影响 以 及 估计 程序 的 不 精确 。 图 13. 19 清楚 地 显示 动 
态 建 模 比 预测 有 更 多 内 容 。 这 幅 图 以 及 很 多 不 包括 在 这 里 的 其 他 图 像 都 显示 已 正则 化 RBF 关 
于 吸引 子 上 的 点 的 解 的 “和 鲁 棱 性 ”， 这 些 用 于 初始 化 迭代 预测 过 程 。 

从 图 13. 19 使 用 正则 化 得 出 下 面 两 点 观察 ， 是 值得 特别 注意 的 ， 

1. 图 13. 19 的 重建 时 间 序 列 的 短期 可 预测 性 是 大 约 60 个 样本 。 从 无 噪声 Lorenz 吸引 子 的 
Lyapunov 谱 计 算 的 理论 可 预测 值 是 100 个 样本 。 试 验 和 无 噪声 Lorenz 吸引 子 的 预测 范围 的 偏 
差 仅仅 显示 用 来 实施 动态 重 构 的 实际 数据 里 面 存在 噪声 。 从 重建 数据 计算 的 理论 可 预测 值 范 围 
是 61 OLX 13. 5)， 这 非常 接近 短期 可 预测 性 的 试验 观察 值 。 

2. 一 旦 超出 短期 可 预测 性 的 期 限 ， 用 图 13. 19 中 的 重建 时 间 序 列 开始 偏离 真正 Lorenz 吸 
引子 的 无 噪声 实现 。 这 基本 上 是 混沌 动力 学 的 一 个 现象 ， 也 就 是 对 初始 条 件 的 敏感 性 。 像 前 面 
提 到 的 那样 ， 对 初始 条 件 的 敏感 性 是 混沌 的 一 个 标志 。 


13.12 ”小结 和 讨论 


递归 网 络 中 稳定 性 问题 
在 本 章 中 ， 我 们 介绍 了 确定 神经 动力 学 系统 的 数学 基础 ， 用 式 (13. 2) 表 示 ， 为 了 便于 表示 
再 写 一 遍 : 


wn 





fay = Fx?) 
dt 


其 中 上 BEB, XOBRAWRKE: WFO) 是 一 个 向 量 值 的 函数 ， 它 的 每 个 元 素 作 用 于 
状态 xb 的 相应 的 每 个 元 素 。 

本 章 开头 的 讨论 主要 集中 在 系统 稳定 性 这 个 问题 上 。 特 别 描述 了 Lyapunov 直接 方法 ， 它 
为 就 有 关 x( 世 连续 标量 函数 而 言 的 稳定 性 问题 研究 提供 了 强大 有 力 的 数学 工具 ， 称 之 为 Lya- 
punov 方程 。 这 个 方法 包括 两 个 定理 能 够 帮助 我 们 确定 一 个 给 定 的 自 治 非 线 性 动力 学 系统 是 否 
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稳定 或 者 渐 近 稳定 。 这 里 有 适当 的 提示 语 : 这 个 方法 没有 教 我 们 如 何 找到 Lyapunov 方程 ， 反 
而 ， 这 个 任务 需要 研究 人 员 的 精巧 设计 以 找到 它们 。 但 是 在 感 兴趣 的 很 多 实际 问题 上 ， 能 量 函 
数 能 作为 Lyapunov 方程 。 

联想 记忆 的 模型 

在 本 部 分 ， 我 们 讨论 了 两 个 联想 记忆 的 模型 : Hopfield 模型 和 BSB 模型 ， 这 两 个 模型 有 
下 面 一 些 共 同 特点 : 

。 都 使 用 相应 于 Hebb 学 习 规 则 的 正 反 馈 。 

。 它们 都 有 能 量 (Lyapunov) 函数 ， 回 有 的 动力 学 以 迭代 方式 使 能 量 函 数 最 小 化 。 

。 它们 都 能 利用 吸引 子 动力 学 进行 计算 。 

很 自然 ， 它 们 各 自 的 应 用 领域 是 不 同 的 。BSB 模型 具有 固有 的 聚 类 能 力 。 另 一 方面 ，Hopfield 
模型 能 够 按 内 容 访问 存储 器 自我 操作 ; 但 是 ， 在 数字 通信 和 领域 中 它 的 误差 -修正 码 没有 已 确立 
的 误差 -修正 编码 优秀 *。Hopfield 网 络 的 模拟 版 本 同样 也 作为 解决 旅行 商 问 题 的 一 个 模型 。 
进一步 讨论 Hopfield 模型 

Hopfield 在 1982 年 的 论文 对 神经 网 络 界 有 重大 影响 。 事 实 上 ， 它 是 复苏 20 世纪 80 年 代 
持续 的 神经 网 络 研 究 兴趣 的 催化 剂 之 一 。 

更 重要 的 是 ， 在 这 篇 经 典 论文 中 进行 以 下 操作 : 

。 考虑 递归 网 络 ， 人 工 配置 使 其 具有 对 称 突 触 权 值 ， 来 满足 式 (13. 21) 中 对 称 条 件 。 

。 明确 地 表达 能 量 函 数 玉 ， 如 式 (13. 28) 中 定义 。 

。 EHRE RAA E A Lyapunov FE. 

。 EWE BME RE E PBK TE 2 RE BULA ARR. 
同时 在 一 篇 相对 短 的 文章 中 做 到 所 有 这 些 ， 这 也 就 使 得 Hopfield 在 1982 年 的 论文 更 加 优秀 和 令 人 印 
象 深 刻 。 事 实 上 ， 它 也 是 过 去 十 年 在 物理 学 家 和 数学 家 中 产生 许多 令 人 兴奋 的 事 的 缘由 。 

简 言 之 ，Hopfield 向 我 们 展示 了 一 个 简单 的 ， 结 构 性 的 行为 产生 一 个 复杂 的 ， 时 变 非 线 性 
动力 学 系统 是 可 能 的 。 这 种 动态 行为 的 可 能 性 之 前 被 其 他 研究 者 研究 过 ， 但 是 Hopfield 的 论 
文 第 一 次 把 递归 网 络 的 再 现行 为 的 内 在 以 一 种 可 见 可 信和 的 方式 融 汇 在 一 起 。 

适当 的 提醒 是 以 下 想法 是 天 真 的 ， 即 认为 Hopfield 网 络 连同 其 他 神经 网 络 界 的 联想 记 
忆 模 型 能 够 适用 于 人 类 记忆 (Anderson，1995)。 
作为 理解 哺乳 动物 大 脑 的 帮助 者 的 大 规模 计算 机 模型 

模型 化 大 脑 的 部 分 功能 ， 或 者 更 加 雄心 勃勃 的 ， 模 型 化 整个 大 脑 本 身 ， 这 是 一 项 具有 挑战 
性 的 任务 。 激 励 人 心 的 是 Izhikevich and Edelman 在 哺乳 动物 大 脑 结构 和 动态 复杂 性 上 面 的 先 
驱 性 的 工作 。 在 他 们 2008 的 论文 中 描述 了 哺乳 动物 皮层 系统 的 大 规模 计算 机 模型 。 众 所 周知 ， 
丘脑 -皮层 系统 对 意识 从 以 下 意义 上 是 重要 的 ， 即 失去 丘脑 或 皮层 将 丢失 意识 ; 另 一 方面 ， 例 
如 ， 丢 失 海 马 体 或 者 小 脑 将 损害 大 脑 的 部 分 功能 ， 但 保留 意识 。 对 丘脑 -皮层 系统 的 关注 使 得 
Izhikevich-Edelman 模型 变 得 更 加 有 趣 。 

整个 模型 的 主要 特点 包括 : 

1. 一 百 万 多 个 多 区 划 元 的 模拟 。 为 了 模拟 ， 神 经 元 经 校准 来 再 生 有 名 的 小 鼠 的 体外 反应 。 
在 模拟 中 Izhikevich (2007a) 之 前 关于 神经 元 峰值 动力 学 的 工作 是 突出 的 。 

2. 大 约 五 亿 个 突 触 ， 这 个 大 规模 突 触 模型 自动 展示 三 个 高 度 相 关 的 神经 活动 : 

D 神经 动力 学 。 模 拟 的 峰值 动力 学 中 每 个 神经 元 和 每 个 树 状 突 的 区 划 可 以 用 下 面 两 个 微 
分 方程 描述 。 


CE = ka) (ov) ut I (13. 83) 
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ne = alb(vu— v,)— u] (13. 84) 
其 中 C= 细胞 膜 电 容 
v 三 细胞膜 电位 
vu, = eSB f 
Uar = BERT HI ABZ 
& 一 定义 所 有 向 内 和 向 外 电压 门 控 电 流 差 的 回复 变量 
I 二 树 突 的 突 触 的 电流 
a 和 5 是 常数 。 假 定 细胞 膜 电位 大 于 峰值 的 极 大 值 的 时 候 ， 神 经 模型 启动 尖 脉 冲 〈 动 作 电 
位 )， 并 且 模 型 中 的 所 有 变量 重 设 。 
2) 短 时 突 触 可 塑性 。 在 模型 中 ， 每 个 突 触 的 传导 率 ( 长 度 ) 可 以 升 高 也 可 以 降低 ， 在 短 
时 间 规 模 内 分 别 代表 抑制 和 促进 。 
3) 长 时 峰值 定时 相关 可 塑性 。 这 个 模型 的 第 二 个 可 塑性 特点 ,每 个 突 触 增强 或 者 抑制 ， 
依赖 前 突 触 神经 元 点 火 的 顺序 和 相应 的 后 突 触 神经 元 的 树 状 分 隔 。 
3. 泛 化 性 能 。 这 个 模型 具有 展示 未 建立 在 该 模型 中 的 正常 脑 组 织 动 作 的 行为 制度 。 
赋予 了 这 些 神经 生物 学 特性 的 大 规模 计算 模型 说 明了 我 们 正 逐 渐 地 向 建立 哺乳 动物 大 脑 的 
大 规模 计算 模型 接近 ， 这 样 的 模型 能 实现 实时 操作 。 


注释 和 参考 文献 


1. 一 个 非 自治 (nonautonomous) 系统 由 状态 方程 
了 xi) = F(x(?) ,1) 
dz 


定义 ， 初 始 条 件 为 x(t)= 二 x。。 对 一 个 非 自 治 系统 ， 向 量 域 F(x(t)， 纪 依赖 于 时 间 +。 因 此 ， 不 像 自治 系统 
那样 ， 我 们 一 般 不 置 初始 时 间 为 0 (Parker and Chua, 1989), 
2. 一 般 来 说 ， 除 式 (13. 11) 外 一 个 非 线性 动态 系统 的 全 局 稳定 性 还 需要 径 向 无 界 条 件 
V(x) =œ, 外 xl 一 ce 
成 立 (Slotine and Li，1991)。 由 具有 sigmoid 激活 函数 的 神经 网 络 构造 的 Lyapunov 函数 通常 满足 该 条 件 。 
3. 我 们 给 出 一 个 吸引 子 的 严格 定义 如 下 (Lanford, 1981; Lichtenberg and Lieberman, 1992); 


状态 空间 的 一 个 子 集 GAD MRRA-PRAAT, WR: 
。 NM 根据 流 保 持 不 变 

。 ARP, MAA CP) ARK i BML 

。 ALS BT AL SR ap ARR RS 

。 UM 不 能 被 分 成 两 个 互 不 相交 的 不 变 片 《piece) 


4. 集中 点 火 神经 元 
式 (13.14) 的 加 性 模型 并 没完 全 抓 住 一 个 生物 神经 元 的 精 骸 。 特 别 地 ， 它 忽略 了 动作 电位 中 编码 的 时 序 信 
息 ; 动作 电位 在 介绍 章节 中 给 出 简要 的 定性 描述 。Hopfield (1994) 描述 一 个 动态 模型 ， 通 过 考虑 一 个 集 
中 点 火 (Integrate and Fire) 神经 元 捕 提 动作 电位 。 这 样 一 个 神经 元 的 运行 由 一 阶 微分 方程 


C ub) =— UD 一 ww) +i) (A) 


描述 ， 其 中 ”wu(#) 二 神经 元 内 部 电位 
C 一 神经 元 周围 细胞 膜 的 电容 
R= A ER ARE (leakage resistance) 
it 一 由 另 一 神经 元 注 和 人 当前 神经 元 的 电流 
wo 一 当 i(#) 消 失 时 神经 元 减少 的 电位 
在 每 次 内 部 电位 u(t) 达 到 阐 值 时 产生 一 个 动作 电位 。 
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”动作 电位 被 看 作 是 Dirac delta (opi) 函数 ， 表 示 为 
a(t) = DOG tan) (B) 


其 中 &,，n 二 1,2,3,…, 代 表 神 经 元 的 激活 动作 电位 的 次 数 ， 这 些 次 数 由 式 (A) 所 定义 。 流入 神经 元 天 的 总 电 
Ki OHH i OEE A 


Siw =— ti + Lewes (C) 


其 中 ws 为 神经 元 7 到 神经 元 & 的 突 触 权 值 ，r 是 神经 元 的 特征 时 间 常 数 ， 函数 gj (四 由 式 (2) 定 义 。 

式 (13.14) 的 加 性 模型 可 看 作 是 (C) 的 一 个 特例 。 具 体 地 ， 忽 略 gj; ORI (spiky) HR, MRS gi OA 
一 个 光滑 函数 的 卷 积 。 这 是 因为 高 度 连 接 在 一 个 合理 的 时 间 间 隔 内 式 (C) 右 边 的 总 和 会 有 许多 项 ， 并 且 我 
们 只 关心 神经 元 点 火 率 的 短期 行为 。 

5. Little 模型 (Little, 1974; Little and Shaw, 1978) 和 Hopfield MO — $F të H MRM. Ri, EMA 
间 之 处 在 于 Hopfield 模型 用 异步 〈 串 行 ) HA, W Lite 模型 用 同步 〈 并 行 ) 动力 学 。 相 应 地 ， 它 们 展 
示 不 同 的 收 伍 性 (Bruck, 1990; Goles and Martinez，1990) 。Hopfield 网 络 总 是 会 收敛 到 一 个 稳定 状态 ， 
而 Little 模型 总 是 会 收敛 到 一 个 稳定 状态 或 长 度 至 多 为 2 的 极限 环 。 所 谓 “ 极 限 环 ”是 指 网 络 状 态 空 间 的 
长 度 小 于 或 等 于 2 的 环 。 

6. 式 〈13.71)? 定 义 的 相关 函数 C(q,7) 的 思想 在 统计 上 已 知 是 从 Rényi (1970) 的 工作 得 来 的 。 然 而 用 ERM 
画 一 个 奇异 吸引 子 是 在 Grassberger and Procaccia (1983) 中 提出 的 。 他 们 最 初 是 讨论 相关 维 数 = 2 时 
Clgqs7?) 的 应 用 。 

7. 从 一 个 时 间 序 列 里 用 独立 坐标 来 构建 动态 系统 首先 由 Packard 等 (1980) 提出 。 然 而 ， 这 篇 论文 并 没有 给 
出 证 明 ， 用 的 是 “导数 ”嵌入 而 不 是 时 间 - 延 迟 柑 人 。 时 间 - 延 迟 振 入 或 延迟 坐标 姐 人 归功 于 Ruelle 和 
Takens。 特 别 地 ，1981 年 Takens 发 表 了 一 篇 在 数学 上 很 深刻 的 时 间 - 延 迟 戏 人 方面 的 文章 ， 它 应 用 于 吸引 
子 为 曲面 或 类 似 环 面 ; 也 可 以 参看 Mané(1981) 在 同一 杂志 上 发 表 的 同一 主题 的 论文 。Takens 的 论文 对 非 
数学 家 来 说 很 难民 ，Maiie 的 更 难 懂 。 延 迟 坐 标 映射 的 思想 在 Sauer 等 〈1991) 中 得 到 提炼 。 在 这 篇 论文 中 
采用 的 方法 是 对 Whitney(1936) 和 Takens(1981) 的 早期 结果 的 综合 和 扩展 。 

8. 伪 状 态 干扰 Hopfield 模型 的 检索 阶段 是 因为 它们 趋 于 把 存储 的 模型 混合 起 来 。 相 应 地 ，Hopfield 模型 的 误 
差 -修正 能 力 由 于 伪 状 态 的 产生 而 降低 。 网 络 的 结果 作为 一 个 误差 -修正 系统 ，Hopfield 模型 不 是 那么 好 。 
这 种 情况 特别 是 在 数字 通信 和 领域 中 当 Hopfield 模型 对 比 已 确立 的 误差 -修正 编码 时 (Lin and Costello, 
2004) 。 后 者 编码 让 人 印象 深刻 在 于 〈 聪 明 地 按照 制定 编码 方案 通过 插 人 奇偶 校 验 ) 它们 能 够 接近 所 亩 的 香 
农 极限 ， 而 这 个 挑战 自从 香农 的 1948 关于 信息 论 的 经 典 论文 就 引起 编码 理论 学 家 的 注意 。 

9. 组 合 最 优化 问题 在 数学 中 以 几乎 最 难 而 出 和 名。 这 类 最 优化 问题 包括 旅行 商 问题 (TSP)， 它 被 视 为 一 个 经 
典 。 给 定 具体 数目 的 城市 的 地 点 ， 假 定 在 一 个 平面 上 ， 找 到 起 点 和 终点 相同 的 最 短 旅 行路 径 。TSP 问题 很 
容易 陈述 ， 但 是 难于 精确 求解 ， 因 为 没有 方法 来 找到 最 优化 旅途 ， 达 不 到 计算 所 有 可 能 的 路 径 的 长 度 ， 然 
后 挑 取 最 短 的 。 它 被 称 为 NP 完全 《Hoperotft and Ullman, 1979), 

Hopfield 和 Tank 在 1985 年 的 一 篇 论文 中 基于 式 (13. 20) 中 N 对 一 阶 微分 方程 的 系统 提出 了 使 用 模拟 
网 络 的 应 用 ， 代 表 了 TSP 问题 的 一 个 解法 。 具 体 地 ， 网 络 的 权 值 由 旅途 中 访问 过 的 城市 之 间 的 距离 决定 ， 
问题 的 最 优化 解 被 作为 式 (13. 20) 方 程 中 的 固定 点 。 此 处 困难 在 于 将 组 合 最 优化 问题 “映射 ”到 连续 〈 模 
HL) Hopfield 模型 。 模 型 遵守 最 小 化 能 量 (Lyapunov) 函数 ， 起 到 限制 一 些 硬 约束 的 目标 函数 的 作用 。 如 
果 违 背 约束 中 任 一 个 ， 解 将 视 为 无 效 。 在 Gee 等 (1993) 中 ,证 明了 Hopfield 模型 的 成 功 对 这 样 的 方式 极 
为 敏感 ， 即 为 联 立 的 方程 组 系统 的 Lyapunov 方程 的 构造 方式 。 


习题 


动力 系统 

13.1 对 于 状态 向 量 x(0) 作 为 一 个 动态 系统 的 平衡 状态 ， 重 述 Lyapunov 定理 。 

13.2 ”验证 图 P13. 2a 和 b 的 框图 分 别 对 应 神经 动力 学 方程 (13. 18) 和 (13.19)。 使 用 这 两 个 等 式 说 明 图 P13. 2 
中 的 两 个 框图 的 有 效 性 。 
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作用 在 输入 向 量 每 个 分 量 的 非 线性 集 突 触 权 值 矩阵 

















dy 
dt 

















作用 于 输入 向 量 每 个 





分 量 上 非 线性 集 
偏 置 向 量 
a) b) 
图 P13.2 
13.3 考虑 一 般 的 神经 动力 学 系统 ， 它 依赖 于 未 指定 的 内 部 状态 参数 、 外 部 动态 刺激 和 状态 变量 。 系 统 由 状 
态 方程 
= g (Wu, j=1,2,; eN 


定义 ， 其 中 和 矩阵 W 代表 系统 的 内 部 动态 参数 ， 向 量 u 代表 外 部 动态 刺激 ,x 是 状态 向 量 ， 它 的 第 7 个 
GRH 表示 。 对 于 W，u 的 值 和 在 状态 空间 的 某 些 运行 区 域 x(0? 的 值 ， 假 定 系 统 的 轨迹 收 和 伍 到 点 吸 
引子 (Pineda，1988b)。 讨 论 所 描述 的 系统 如 何 能 用 于 如 下 应 用 : 
(a) 连续 映射 器 ，u 是 输入 ，x(ce) 是 输出 。 
(b) 自 联 想 记 忆 ，x(0) 是 输入 ，x(ce) 是 输出 。 
Hopfield 模型 
13.4 考虑 由 5 个 神经 元 组 成 的 Hopfield 网 络 ， 它 需要 存储 以 下 三 个 基本 记忆 : 
& = [i++ & =[+1,-1,-14+1,-1! & =(+1,+1,-1,4+1,4+1) 
(a) 计算 网 络 的 5X5 突 触 权 值 矩阵 。 
(b) 用 异步 更 新 演示 所 有 三 个 基本 记忆 名，5。，& 满 足 对齐 条 件 。 
(O 车 总 是 有 噪声 的 ， 它 的 第 二 个 元 素 极 性 反 转 ， 研 究 网 络 的 检索 性 能 。 
13.5 研究 同步 更 新 习题 13.4 所 描述 Hopfield 网 络 的 检索 性 能 。 
13.6 (a) 证 明 
& =[—1,—-1,-1,—-1.—-1" & =[-1,4+1,4+1,-1,4+17 & =[41,-1,4+1,—-1,-17 
也 是 习题 13.4 所 描述 的 Hopfield 网 络 的 基本 记忆 。 这 些 基本 记忆 和 习题 13. 4 中 的 基本 记忆 之 间 
有 什么 关系 ? 
(Cb) 假定 习题 13. 4 中 基本 记忆 & 的 第 一 个 元 素 被 掩 模 ( 即 减少 为 0)。 确 定 Hopfield 网 络 所 产生 的 结 
果 模 式 。 比 较 这 个 结果 和 & 的 原始 形式 。 
13.7 考虑 由 两 个 神经 元 构成 的 简单 Hopfield 网 络 ， 网 络 的 突 触 权 值 矩 阵 为 
"e[n 
—1 0 
每 个 神经 元 的 偏 置 为 0， 网 络 的 四 个 可 能 状态 是 
xX = (4+1,+1]" X% = 1, +1] X3 = [1,1] X4 = [十 1, 一 1 
(a) BURA. Ax BREN. TRA x 和 x 成 为 极限 环 。 用 下 面 两 个 工具 来 说 明 : 
1. 对 齐 (稳定 性 ) 条 件 
2. 能 量 函 数 
Cb) 刻画 状态 x, 和 x 的 极限 环 的 长 度 是 多 少 ? 
13.8 Hopfield 网 络 的 能 量 函 数 可 表达 为 : 
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13.9 


E =— 


yiz 


其 中 和 代表 由 


M 
dm 
vel 


N 
1 
m, = Ny bbe v=1,2,-,M 


j= 


定义 的 重要 ， 其 中 zx; 是 状态 向 量 x 的 第 j 个 元 素 ，6&,; 是 基本 记忆 &, 的 第 7 个 元 素 ，M 是 基本 记忆 


个 数 。 


可 以 证 明 Hopfield 网 络 相 对 于 干扰 是 鲁 棒 的 ， 如 突 触 噪声 。 用 一 个 说 明 性 的 例子 来 证 明 这 个 说 法 的 有 


效 性 。 


13.10 第 11 章 中 的 Boltzmann 机 可 以 视 为 Hopfield 网 络 的 扩展 。 请 列 出 两 个 非 监督 学 习 系 统 的 异同 点 。 
Cohen-Grossberg 定理 
考虑 式 (13. 48) 定 义 的 Lyapunov 函数 E. WRR 49) 至 式 (13. 51) 的 条 件 满足 ， 证 明 


13.11 


dE 
T <° 


13.12 在 13.9 节 ， 我 们 通过 应 用 Cohen-Grossberg 定理 导出 了 


BSB 模型 的 Lyapunov 函数 。 在 推导 式 (13.63) 时 ， 省 略 
了 一 些 细 节 。 请 写 出 这 些 细 节 。 


13.13 图 13.13 显示 非 单调 激活 函数 的 一 个 图 形 ， 该 函数 由 


Morita (1993) 提出 ， 这 在 注释 6 中 讨论 过 。 这 个 函数 在 
构造 Hopfield 网 络 时 用 于 代替 双 曲 线 正 切 函数 。Cohen- 


Grossberg 定理 适用 于 这 样 构造 的 联想 存储 器 吗 ? 请 说 明 


你 的 理由 。 


数据 表达 
13.14 根据 Chigirev and Bialek (2005)， 在 第 10 章 中 我 们 使 用 


了 优化 流 形 的 思想 描述 了 一 种 数据 表达 的 算法 。 给 定 一 
些 不 带 标签 的 数据 作为 算法 输入 ， 算 法 可 以 产生 下 列 两 
种 结果 : 

。 一 些 列 的 流 形 点 ， 在 其 周围 是 已 聚 类 的 数据 。 

。 一 个 随机 图 ， 它 把 输入 数据 映射 到 这 个 流 形 上 。 


用 在 13. 10 节 中 描述 的 Grassberger-Procacia 相关 维 的 思想 ， 


杂 度 的 概率 估计 的 有 效 性 而 概述 一 个 实验 。 








图 P13.13 


为 验证 Chigirev-Bialek 算法 作为 流 形 维 复 
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动态 系统 状态 估计 的 贝 叶 斯 滤波 


本 章 组 织 

本 章 围 绕 着 一 个 基本 而 重要 的 主题 展开 : 给 定 一 组 观测 值 ， 估 计 动 态 系统 中 的 隐藏 状态 。 
本 章 的 内 容 结构 如 下 : 

14.1 节 为 概述 ， 引 起 读者 对 逐次 状态 估计 的 学 习 兴 趣 。 

14.2 节 讨 论 状 态 空间 的 概念 和 状态 空间 的 各 种 建 模 方 法 。 

14.3 节 介 绍 著名 的 卡尔 曼 滤 波 器 ，14.4 节 将 讨论 保证 滤波 算法 数值 稳定 性 的 平方 根 方法 。 
14.5 节 阐 述 利 用 扩展 的 卡尔 曼 滤 波 器 处 理 轻 度 的 非 线 性 问题 。 

14.6 节 讨 论 贝 叶 斯 滤波 。 贝 叶 斯 滤波 算法 至 少 在 概念 上 为 动态 系统 状态 估计 提供 了 统一 
的 框架 。 而 卡尔 曼 泪 波 器 正 是 这 一 滤波 模型 的 一 个 特例 。 

14.7 节 对 贝 叶 斯 滤波 器 直接 的 数值 近似 问题 提出 了 数值 积分 法 则 。 在 此 基础 上 介绍 了 一 
种 新 的 滤波 器 一 一 数值 积分 卡尔 曼 滤 波 器 ， 它 的 思想 源 于 卡尔 曼 滤 波 器 理论 。 

14.8 节 对 贝 叶 斯 滤波 近似 问题 提出 了 另 一 个 算法 。 这 一 算法 源 于 Monte Carlo 模拟 。 特 别 
地 , .提出 了 对 粒子 滤波 器 的 详细 处 理 。14.9 节 通 过 计算 机 实验 ， 比 较 了 扩展 的 卡尔 曼 滤 波 器 
和 粒子 滤波 器 的 性 能 。 

14. 10 节 讨 论 卡 尔 受 滤波 在 对 大 脑 各 部 分 的 建 模 中 扮演 的 角色 。 

14.11 节 总 结 并 讨论 了 整 章 内 容 。 


14.1 引言 


在 第 13 章 介绍 的 神经 动力 学 系统 中 ， 我 们 关注 的 主要 问题 是 稳定 性 。 在 本 章 中 ， 我 们 将 
考虑 另 一 个 重要 的 问题 ， 即 给 定 一 组 基于 某 一 类 型 的 状态 观测 值 ， 如 何 估计 动态 系统 的 状态 。 
观测 发 生 在 离散 的 时 间 点 上 ， 这 并 非 是 为 了 数学 上 的 方便 ， 而 是 因为 观测 值 就 是 产生 在 离散 时 
间 点 上 的 。 此 外 ， 状 态 不仅 是 未 知 的 ， 且 对 于 观测 者 而 言 是 隐藏 的 。 因 此 ， 我 们 可 以 将 状态 估 
计 问 题 视 为 逆向 问题 。 

举 一 个 说 明 性 的 例子 ， 考 虑 一 个 动态 驱动 的 多 层 感 知 器 ， 该 网 络 的 每 一 层 都 有 向 前 一 层 
反馈 回路 〈 例 如 从 隐藏 层 到 输入 展 ) 。 网 络 的 状态 可 被 看 做 一 个 向 量 ， 该 向 量 是 由 网 络 所 有 权 
” 重 ， 按 某 一 排序 方式 排列 构成 的 。 我 们 要 做 的 是 给 定 一 个 训练 样本 ,利用 逐次 状态 估计 理论 对 
网 络 权重 向 量 进行 有 监督 的 调整 。 这 一 应 用 将 在 下 一 章 详 细 讨 论 。 然而， 对 此 应 用 我 们 需要 一 
个 状态 估计 的 连续 过 程 ， 相 关 的 基本 原理 也 将 在 下 一 章 阔 述 。 

逐次 状态 估计 理论 的 首次 严格 论述 ， 出 现在 1960 年 卡尔 曼 发 表 的 论文 中 。 为 了 便于 数学 
处 理 ， 卡 尔 曼 的 论述 基于 以 下 两 个 简单 假设 : 

1. 动态 系统 完全 是 线性 的 。 

2. 上 噪声 对 动态 系统 状态 有 扰动 的 作用 且 观 测 变量 是 加 性 的 、 服 从 高 斯 分 布 的 。 

基于 上 述 假设 ， 卡 尔 曼 提出 了 对 系统 中 未 知 状态 进行 最 优 估计 的 递归 算法 。 在 其 适用 领域 
中 ， 卡 尔 曼 滤波 器 毫 无 疑问 经 受 住 了 时 间 的 考验 。 

迄今 为 止 ， 逐 次 状态 估计 理论 仍 是 当下 热门 的 研究 领域 。 大 多 数 该 领域 的 研究 工作 集中 于 
解决 非 线 性 及 非 高 斯 空间 下 的 实际 问题 。 在 以 上 一 种 或 两 种 情况 下 ， 遂 常 无 法 得 到 最 优 估 计 结 
果 。 因 此 ， 我 们 需要 解决 近似 估计 算法 的 实现 问题 。 所 面临 的 挑战 是 如 何 使 得 算法 既 有 理论 依 
据 又 具备 较 高 的 计算 效率 。 
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14.2 状态 空间 模型 
动态 系统 有 一 个 共同 的 基本 特征 : 系统 的 状态 。 该 特征 的 严格 定义 如 下 : 


一 个 随机 动态 系统 的 状态 被 定义 为 最 少量 的 信息 ， 这 些 信息 包含 过 去 作用 于 该 系统 的 输入 
的 影响 ， 并 足以 完全 描述 系统 将 来 的 行为 。 


通常 情况 下 ， 状 态 不 是 直接 可 测量 的 。 而 是 用 间接 的 方式 测量 一 组 观测 值 来 反应 状态 对 外 
部 世界 的 影响 。 这 样 ， 未 知 动态 系统 的 特征 可 以 由 状态 空间 模型 描述 ， 它 包含 了 以 下 两 个 
BR: 
1 系统 RA) 模型 ， 用 公式 表示 为 一 阶 马 尔 可 夫 链 ， 用 关于 时 间 的 函数 描述 状态 的 演 
变 。 公 式 如 下 : 
Xa = a, (X, sOn) (14. 1) 
其 中 , ?表示 离散 时 间 ， 人 向量 x, 表示 当前 状态 的 值 ， 向 量 x+ 表示 下 一 状态 的 值 ， 向 量 o 表 
示 动 态 噪声 或 过 程 噪声 ，a.(*,*) 是 关于 两 个 参数 的 向 量 函 数 。 
2. ME AM) 模型 ， 用 公式 表达 如 下 : 
yn = bs CX, ,v,) (14. 2) 
向 量 表示 一 组 观测 值 ， 向 量 w 表示 噪声 的 测量 值 ，b, (*,*) 表 示 另 一 个 向 量 函 数 。 
a, Alb, 的 下 标 n 用 于 包括 所 有 的 状态 ， 这 两 个 函数 是 随时 间 改 变 的 。 为 了 让 状态 空间 模 
型 更 具 实用 的 价值 ， 在 研究 中 必须 严密 地 描述 系统 的 底层 物理 特征 。 
图 14. 1 是 单 信号 流 示意 图 ， 它 描述 了 由 式 (14.1) 和 式 (14.2) 定 义 的 状态 空间 模型 。 
图 14. 2 将 状态 随时 间 的 演变 描述 为 一 个 马尔 可 夫 链 。 在 两 幅 图 中 ， 模 型 的 时 间 域 表示 具有 以 
TFA: 





图 14.1 随时 间 变化 的 非 线性 动态 系统 的 一 般 状 态 空间 模型 ， 其 中 * : 工 表示 一 组 单 
位 时 间 延 时 





图 14.2 ”状态 随时 间 的 演变 ， 看 作 一 阶 马尔 可 夫 链 
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。 数学 上 和 记 法 上 的 便利 。 

。 模型 与 物理 现实 的 紧密 联系 。 

。 解释 系统 统计 行为 的 有 意义 的 基础 。 

有 理由 做 出 如 下 假设 : 

1. 对 任意 的 n， 初始 状态 x 与 动态 噪声 o, 是 无 关 的 。 

2. 两 种 噪声 源 on Ay, 是 统计 独立 的 ， 也 就 是 说 

Elavil 二 0 ,对 于 所 有 的 nn 和 (14. 3) 

4o, 和 v 高 斯 相关 时 ， 上 述 等 式 是 o 和 ww 相互 独立 的 充分 条 件 。 

值得 注意 的 是 ， 图 14. 2 中 的 马尔 可 夫 模 型 ， 从 根本 上 不 同 于 第 12 章 当 中 涉及 动态 规划 的 
马尔 可 夫 模 型 。 因 为 在 动态 规划 中 ， 状 态 对 于 观测 者 而 言 是 直接 可 以 获得 的 ， 而 逐次 状态 估计 
中 的 状态 对 于 观测 者 而 言 是 隐藏 的 。 
逐次 状态 估计 问题 的 描述 

WRH Jy Yn 组 成 的 全 部 观测 值 的 记录 ， 计 算 在 统计 意义 上 最 优 的 隐藏 状态 Xs HH 
计 值 ， 将 这 些 估计 和 值 用 逐次 的 方式 表示 出 来 。 

这 样 ， 这 一 描述 包含 了 两 个 系统 : 

。 未 知 的 动态 系统 ， 其 观测 量 y, 是 关于 隐藏 状态 的 函数 。 

。 逐次 状态 估计 器 或 滤波 器 ， 用 于 开发 观测 值 中 包含 的 状态 信息 。 

从 广义 上 说 ， 我 们 可 以 将 些 视 为 “编码 -解码 ”问题 。 观 测 值 可 祝 为 被 编码 的 状态 ， 而 由 
滤波 器 实现 的 状态 估计 过 程 则 可 视 为 对 观测 值 的 解码 。 

Be, 4Skon 时 状态 估计 称 为 预测 ， 当 二 n 时 称 为 滤波 ， 当 上 二 n 时 称 为 平滑 。 通 常情 
况 下 ， 因 为 平滑 器 使 用 更 多 的 观测 量 ， 所 以 在 统计 上 比 预测 器 、 滤 波 器 更 为 精确 。 另 一 方面 ， 
预测 器 和 小 波 器 可 用 于 实时 应 用 ， 而 平滑 器 不 能 。 


状态 空间 模型 的 分 类 体系 
解决 状态 估计 问题 ， 在 数学 上 的 困难 主要 取决 于 状态 空间 模型 的 实际 描述 。 因 而 产生 了 状 
态 空 间 模 型 的 分 类 体系 : 
1. 线性 、 高 斯 模型 。 该 模型 是 最 简单 的 状态 空间 模型 。 式 (14.1) 和 式 (14.2) 可 分 别 变 
换 为 
Xl 一 AntisnXn T On (14. 4) 
和 
y = B,x, + Vn (14. 5) 
Ep, Ar ,是 从 状态 x, 到 状态 w+: 的 过 渡 和 矩阵 ，B, 是 测量 矩阵。 动态 噪声 o MWERA v, 
均 是 加 性 的 ， 并 假设 为 统计 独立 的 均值 为 0 的 高 斯 过 程 ， 其 协 方 差 矩 阵 分 别 用 Q.. .和 Q... 表 示 。 
用 式 (14. 4) 及 式 (14. 5) 定 义 的 状态 空间 模型 即 为 卡尔 曼 提 出 的 递归 滤波 器 所 使 用 的 模型 。 它 在 
数学 上 其 完 美的 ， 并 回避 了 任何 可 能 的 近似 问题 。 卡 尔 曼 滤波 器 相关 的 内 容 将 在 14. 3 节 中 
介绍 。 
2. 线性 、 非 高 斯 模型 。 在 此 模型 中 ， 我 们 仍然 使 用 式 (14. 4) 以 及 式 (14. 5) ， 但 动态 噪声 
o 和 测量 噪声 都 被 假设 为 加 性 的 、 统 计 独 立 的 非 高 斯 过 程 。 这 两 个 过 程 的 非 高 斯 性 是 导致 
了 数学 上 的 困难 的 唯一 来 源 。 在 这 样 的 情况 下 ， 我 们 可 以 使 用 高 斯 求 和 近似 扩展 卡尔 曼 滤 波 器 
的 应 用 范围 ， 总 结 如 下 : 


任何 描述 多 维 非 高 斯 向 量 的 概率 密度 函数 p(x)， 用 样本 值 x* 表 示 ， 能 够 用 高 斯 求 和 公式 尽 可 
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能 地 逼近 
PX) 一 Da NK DD (14. 6) 


对 整数 N FOE RB ci, Dole Pi = 1,2. N ANG, DORTHEA, a oH 
AD, 的 高 斯 CEA) 密度 函数 。 


式 (14. 6) 等 号 右边 的 高 斯 和 ， 随 着 项 数 N 的 增加 ， 一 致 收 伍 到 给 定 的 概率 密度 函数 
pz(X), 且 对 所 有 的 i， 协 方差 矩阵 2 趋 于 0 (Anderson and Moore，1971) 。 对 给 定 的 概率 密 
度 函数 p(x)， 计 算式 (14. 6) 的 高 斯 求 和 近似 ， 例 如 可 以 使 用 基于 期 望 最 大 化 (EM) 算法 的 程 
F: 该 算法 的 内 容 在 第 11 章 介绍 过 。 已 经 计算 得 到 近似 值 ， 可 以 使 用 一 组 卡尔 曼 滤 波 器 ， 解 
决 用 线性 、 非 高 斯 的 模型 描述 的 逐次 状态 估计 问题 (Alspach and Sorenson，1972) 。 然 而 ， 注 
意 到 高 斯 和 模型 的 项 ， 随 着 时 间 按 指数 级 增 大 ， 需 要 使 用 修剪 算法 。 

3. 非 线 性 、 高 斯 模型 。 在 复杂 性 增加 的 状态 空间 模型 的 分 类 体系 中 ， 第 三 个 模型 用 公式 
表示 如 下 : 

Xi 一 a,(x,) +, (14. 7) 
和 

Yn = bp (Xn) + Vn (14. 8) 
假设 动态 噪声 on AU RR v 都 是 加 性 和 服从 高 斯 分 布 的 。 这 里 就 是 解决 逐次 状态 估计 问题 
的 数学 上 困难 的 开始 。 计 算 该 问题 的 近似 解 ， 主 要 有 两 个 完全 不 同 的 方法 : 

1. 局 部 近似 。 在 非 线 性 滤波 的 第 一 种 方法 中 ， 式 (14.7) 的 系统 模型 的 非 线 性 函数 a,(*) 和 - 
式 (14. 8) 的 测量 模型 中 的 非 线 性 函数 b,(.)， 靠 这 两 个 线性 等 式 ， 近 似 于 状态 的 局 部 估计 值 。 
接着 应 用 卡尔 曼 滤波 器 计算 近似 解 。14. 5 节 介 绍 的 扩展 的 卡尔 曼 滤波 器 ， 是 对 非 线 性 滤波 器 
的 局 部 近似 方法 的 例子 。 

2. 全 局 近似 。 在 非 线性 滤波 的 第 二 种 方法 中 ， 解 用 贝 叶 斯 估计 结构 的 公式 表示 ， 通 过 这 
种 方法 ， 使 得 问题 固有 困难 的 解释 在 数学 上 易于 处 理 。 

3. 非 线 性 、 非 高 斯 模型 。 式 (14. 1) ARL. 2) 描 述 了 状态 空间 模型 的 最 后 一 种 类 型 ， 系 
统 模型 和 测量 模型 都 是 非 线性 的 ， 动 态 噪声 on 和 测量 噪声 w 不 仅 是 非 高 斯 的 ， 而 且 可 能 是 非 
加 性 的 。 在 这 种 情况 下 ， 粒 子 滤波 器 是 当前 选择 的 方法 ， 但 不 是 解决 逐次 状态 估计 问题 的 唯一 
选择 。 

14.3 卡尔 曼 滤 波 器 


式 (14.4) 、 式 (14. 5) 定 义 了 卡尔 曼 滤波 器 的 状态 空间 模型 。 此 线性 高 斯 模型 中 涉及 的 参数 
如 下 : 

。 状态 转移 矩阵 Anino CEAR. 

。 测量 矩阵 B,， 通 常情 况 下 它 是 长 方形 矩阵 。 

。 高 斯 动态 噪声 wm, ， 假 设 它 具 有 零 均值 且 有 协 方差 矩阵 Qno 

。 高 斯 测量 噪声 mw， 假设 它 具 有 零 均 值 且 有 协 方差 矩阵 Qno 

假设 上 述 所 有 参数 均 已 知 。 并 给 定 一 组 观测 值 {y,};-;。 现 要 求 最 小 均 方 误差 意义 下 状态 x 
的 最 优 估计 值 。 我 们 将 滤波 的 讨论 限定 在 & 一 ”， 单 步 预 测 & 一 2 十 1 的 情况 。 
新 息 过 程 

处 理 此 类 优化 估计 问题 的 一 个 有 效 办 法 ， 是 利用 关于 观测 量 y, 的 所 谓 的 新 息 过 程 。 其 定 
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义 如 下 : 

On, = Yun 一 多 (14. 9) 
其 中 多 :是 在 给 定 至 ”一 1 NA (包括 nl NAD 所 有 观测 值 的 情况 下 ， 对 y, 的 最 小 均 方 差 
的 估计 。 实 际 上 ， 我 们 可 以 说 : 


新 息 过 程 m 是 包含 在 测量 值 y, 但 不 在 六 :的 预测 部 分 的 新 信息 的 测量 ， 因 为 y, 可 以 预 
MATES CGAY 1) 是 完全 由 序列 fy ol REA, 


新 息 过 程 有 如 下 重要 的 性 质 
性 质 1 SAWE y 有 关 的 新 息 过 程 w 与 之 前 的 所 有 观测 值 y, ,y; ,…,y, IER, RAH: 
Eley | =0, 1<k<un-l1 (14. 10) 
性 质 2 新 息 过 程 由 一 系列 相互 正 交 的 随机 向 量 构 成 ， 表 示 为 : 
Eo ow j=0, 1<k<n-1 (14. 11) 


性 质 3 代表 观测 数据 的 随机 向 量 序列 {yyy}, 与 表示 更 新 过 程 的 序列 {m ，o ，…， 
0 } 一 一 对 应 。 因 此 ， 通 过 能 够 保证 线性 稳定 并 且 不 丢失 任何 信息 的 操作 ， 可 以 从 一 个 序列 得 
到 另 一 个 序列 。 因 此 可 写作 
(asyay) — (esaesa) (14. 12) 
鉴于 上 述 特性 ， 就 能 理解 为 什么 使 用 更 新 过 程 比 使 用 观测 值 本 身 要 简单 : 总 的 来 说 ， 观 测量 是 
相关 的 ， 而 与 之 对 应 的 更 新 过 程 中 的 部 分 是 无 关 的 。 


新 息 过 程 的 协 方差 矩阵 
从 初始 状态 x 开始 ， 我 们 可 以 用 式 (14. 4) 所 描述 的 系统 模型 表示 & 时 刻 的 系统 状态 : 


| 
Xe = Aro Xo 十 D Ano; (14. 13) 
i=] . 


式 (14. 13) HRA x Bx 以 及 oom, ,wm, 的 线性 组 合 。 
根据 假设 ,测量 噪声 w 与 初始 状态 x 以 及 动态 噪声 o 无 关 。 因 此 ， 在 式 (14. 13) 两 边 同 
FEL vi 后 得 到 : 


El x,.v T] = 0, kın Z0 (14. 14) 
同 理 ， 我 们 可 以 从 测量 公式 (14. 5) 得 到 ， 
ELyv?]=0, 0<k<n-1 (14. 15) 
All 
Eyo] =0, 0<k<n (14. 16) 


给 定 先 前 的 观测 值 yioo yeo 我 们 可 以 从 测量 公式 (14. 5) 中 得 出 当前 观测 值 w 的 最 小 均 方 估 
HHA: 

Fait = By Rne 十 名 (14. 17) 
HH, 是 给 定 先前 的 观测 值 yo yo 后 所 对 应 的 测量 噪声 估计 。 因 为 根据 式 (14.15)，z， 
与 先前 的 观测 值 是 正 交 的 ， 因 此 估计 值 多 ,为 零 。 于 是 化 简 式 (14. 17448): 


Fria = B, Xai (14. 18) 
将 式 (14. 5) 和 式 (14. 18) 代 入 式 (14. 9) ， 将 项 合并 得 ， 
On = 也 .sg.， + Mn (14. 19) 


其 中 ， 新 引入 的 项 gj 1: 是 状态 预测 误差 向 量 。 其 定义 为 : 
Easel 一 X — Bale (14. 20) 
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在 习题 14. 1 中 ，s 1 与 动态 噪声 o 以 及 测量 噪声 v, 均 是 正 交 的 。 由 此 定义 零 均值 新 息 过 程 
a, 的 协 方差 矩阵 为 : 


R, 一 下 [aoz ] (14. 21) 
利用 式 (14. 19) ， 我 们 容易 得 到 : 
R, = B, Pom Bi + Quin (14. 22) 
其 中 Q,., 是 测量 噪声 vy, WODZE., WIAT 
Poma = El Enpi Eam d (14. 23) 


为 预测 误差 协 方差 矩阵 。 式 (14. 22) 是 我 们 理解 卡尔 曼 滤 波 算法 的 第 一 步 。 
iaaa 预测 -修正 公式 
一 步 的 任务 是 利用 新 息 过 程 实现 任意 时 刻 i 系统 状态 x 的 最 小 均 方 误差 估计 。 为 此 ， 给 

EKAA 0 ;02，"… An 我 们 首先 线性 展开 的 形式 表示 对 状态 x; 的 估计 : 

Kin = SC. (14. 24) 
其 中 {Ci)_1 是 i 时 刻 的 展开 式 系 数 和 矩阵 的 集合 。 状 态 预 测 误差 与 新 息 过 程 满足 下 述 正 交 条 件 
《参见 习题 14. 3): 

Else] =O 4k=1,2,nHign (14. 25) 

因此 ， 将 式 (14. 24) 代 入 式 (14. 25) 并 使 用 式 (14. 11) 所 描述 的 新 息 过 程 的 正 交 性 ， 可 得 : 

Exe; | = CR 
其 中 ， 根 据 先前 定义 ，R, 是 新 息 过 程 的 协 方差 矩阵 。 解 此 方程 的 系数 矩阵 Ce ， 得 到 : 

Ci =ELx:a: JR’ 
再 利用 式 (14. 24) 中 的 表示 方法 得 : 


Xi. 一 >) Elx: a; |Ry’ ox (14, 26) 
当 i 一 n 时 ， 为 滤波 过 程 ， 因 此 可 用 式 (14. 26) 描 述 该 该 状态 的 滤波 估计 为 : 


=» ELx,ar Re ou = 2 ELx,af [Ria + ECx an Ra" an (14. 27) 


在 等 式 的 第 二 行 ，& Ln aR AN EBT AR. 为 了 将 式 (14. 27) 转 换 为 更 理解 的 形式 ， 我 
们 首先 用 式 (14. 26) 


m = 5 ELx, ai JRr os (14. 28) 
为 了 简化 式 (14. 27) 的 第 二 ， 我 们 引入 下 述 定义 : 
G, = ECx, ai IR! (14. 29) 
由 此 ， 我 们 可 以 将 状态 滤波 估计 表示 为 下 述 递归 的 形式 : 
Šan = Š em 十 Gon (14. 30) 


式 (14. 30) 等 号 右边 的 两 项 意义 如 下 : 

L 人 :表示 单 步 预 测 ， 其 表示 在 给 定 n 一 1 时 刻 前 (包括 2 一 1 时 刻 ) 所 有 观测 值 的 基础 
上 对 状态 x, 的 预测 估计 。 

2. Ga 表示 修正 项 ， 新 息 过 程 w 表示 由 观测 值 y, 引 人 和 人 滤波 过 程 的 新 信息 ， 乘 以 “增益 因 
子 ”G. 。 因 此 ，G, 通常 被 称 为 卡尔 曼 增 益 ， 以 纪念 卡尔 曼 在 1960 年 发 表 的 文章 中 所 做 出 的 突 
出 贡献 。 

根据 上 述 两 点 ， 式 (14. 30) 在 卡尔 曼 滤波 器 理论 中 被 称 为 预测 -修正 公式 。 
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卡尔 曼 增 益 的 计算 

式 (14. 30) 是 我 们 拥有 的 第 二 个 用 于 卡尔 曼 滤 波 器 递归 计算 的 公式 。 然 而 ， 为 了 让 这 一 
公式 具备 使 用 价值 ， 我 们 需要 计算 卡尔 曼 增益 的 公式 。 该 公式 能 够 用 于 状态 估计 中 的 递归 
计算 。 

有 了 这 一 目标 ， 我 们 可 以 应 用 式 (14. 19) 得 : 

Elx a] = ELx, (Bp Eni + y)” | = ELx, el BP 
在 上 式 的 第 二 行 ， 我 们 利用 了 状态 %, 与 测量 噪声 w 无 关 性 。 注 意 到 ， 根 据 正 交 原 理 ， 状 态 预 
测 误差 向 量 ,1,1 与 状态 估计 名 1。-; 是 正 交 的 。 因 此 ，&8,1,-1 与 各 1:-!1 外 积 的 期 望 为 零 ， 进 而 我 们 
Ae ot x, SBA BBE xe, ]。 由 此 可 得 ， 
E [xa] =E [sg :so BT 一 了 .也 

所 以 ， 对 式 (14. 29) PECL a ] 一 项 使 用 这 一 公式 ， 我 们 可 以 用 预测 误差 协 方差 矩阵 Puin 

将 卡尔 曼 增 益 G, RANA: 
G, = Pi BI R7 (14. 31) 

这 就 是 卡尔 曼 滤波 器 递归 算法 所 需 的 第 三 个 等 式 。 
用 于 更 新 预测 误差 协 方差 矩阵 的 黎 卡 坦 (Riccati) 差分 方程 

为 了 完成 卡尔 曼 滤波 器 的 递归 计算 过 程 ， 我 们 需要 一 个 迭代 公式 ， 从 一 个 迁 代 到 下 一 次 选 
代 中 更 新 预测 误差 协 方差 矩阵 。 

为 了 解决 这 一 状态 估计 过 程 中 的 最 后 一 步 ， 我 们 在 式 (14. 20) 中 用 "十 1 Kn Bal: 

Ertila 一 Xer 一 Xrhiin 

随后 我 们 发 现 用 含有 滤波 估计 的 项 表示 状态 的 预测 估计 是 有 益 的。 故而 将 式 (14. 28) FR n 
换 为 n 十 1 并 应 用 式 (14.4)， 可 得 : 


Rerin = 5 Elx a Ria 一 ` ELCAni 2%, 十 On) ak ]Re os 
moo m (14. 32) 
= Ants 5 ELx, a IR ge 一 Ann Sah , 
式 (14. 32) 的 第 一 行 ， 因 为 动态 噪声 o, SWAER, ARE o ] 为 零 。 对 滤波 
估计 和 MARO. 27) 的 定义 公式 的 第 一 行 ， 以 及 式 (14. 32) 和 对 状态 x, 的 预测 滤波 估计 的 
KAR, AA 8&4+11 HARER: 
E = (Antin Xn F On — Antin Sele = Arrin Xn — Ran) + On 一 Ang 十 oO (14. 33) 
VO a 
状态 xu 预测 估计 





Xn 
其 中 ， 滤 波 误差 向 量 的 定义 为 : 
Enn = Xn — Rate (14. 34) 
因为 滤波 误差 向 量 gj, 与 动态 噪声 o, ZAHM, RNTUHMW REDD BRM A : 
Ph = Elerin Bertin d = Art, Pan Anta F Qun (14. 35) 


其 中 Q. ,为 动态 噪声 o 的 误差 协 方差 矩阵 。 在 式 (14. 35) 中 我 们 引入 了 最 后 一 个 参数 ， 称 为 滤 
波 误差 协 方差 矩阵 ， 其 定义 为 : 

P,, = El Enn es (14. 36) 
为 了 完成 卡尔 曼 滤 波 算法 的 递归 循环 ， 我 们 需要 用 于 计算 滤波 误差 协 方差 矩阵 P;, 1, 的 式 子 。 因 
此 我 们 首先 将 式 (14. 30) 代 入 式 (13. 34) 得 ; 


Enh 一 X, — Xai — G,a, == Bal] 一 Ga, 
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然后 应 用 式 (14. 36) ， 得 到 : 
Pain = EL (ga 一 Go)(Cs — G0 ) ] 
= ELEn Erei ] — G, Elan Ere | — Elena; |G? + G, Elana: 1G? (14, 37) 
= Pai — G, Ela, Eim ] — Ele ia, |G? +G, R, GT 
接着 ， 我 们 注意 到 因为 名 ,~-: 与 新 息 过 程 a 正 交 ， 于 是 可 得 : 
ELsgs 10 ] = ELCx, — Xo, | = ELx,a, | 
A: 
Elan em | = ELa,x, J 
利用 这 一 对 关系 以 及 式 (14. 29) 中 对 卡尔 曼 增益 的 定义 ， 易 得 ; 
GE[a.gx ] = Elena; 1G? = G, R,G; 
根据 式 (14. 37) 化 简 得 : 
P, = Part — G,R,GT7 
最 后 我 们 应 用 卡尔 曼 增 益 的 式 (14. 31) 以 及 协 方差 矩阵 R, 和 P, ,1 的 对 称 性 得 到 ， 
Pan = Pi — G,B,P,, i (14. 38) 
至 此 ， 我 们 得 到 了 式 (14. 38) 和 式 (14. 35) 这 一 对 更 新 预测 误差 协 方差 矩阵 的 重要 公式 。 特 别 是 
式 (14. 38) ， 其 通常 被 看 做 控制 论 中 著名 的 黎 卡 志方 程 的 离散 形式 。 
这 一 对 等 公式 连同 式 (14. 32) 完 成 了 卡尔 曼 滤波 算法 的 公式 化 。 
ER BERBERA 
表 14. 1 列 出 了 解决 卡尔 曼 滤波 问题 所 涉及 的 所 有 变量 和 人 参数。 滤波 器 的 输入 是 一 系列 的 
观测 值 mn ,y: ,…，,y,， 输出 是 滤波 估计 名 。。 其 计算 过 程 是 递归 的 ， 详 见 表 14.2。 为 递归 计算 所 
需 的 初始 条 件 也 一 并 被 列 出 。 需 要 注意 的 是 表 14.2 中 ， 新 息 过 程 m 的 计算 公式 是 根据 
式 (14. 9) 和 式 (14. 18) 得 出 的 。 


表 14.1 卡尔 曼 变 量 和 参数 总 结 





















































变量 定义 维 数 
Xn n 时 刻 的 状态 MX1 
Yn n 时 刻 的 观测 值 | LXI 
Antsa n ARREA ne +1 h AAR AS K ET 2 E EE PE MXM 
B, n 时 刻 的 测量 矩阵 LXM 
Q 动态 噪声 @ 的 协 方差 矩阵 MXM 
Qn i 测量 噪声 w 的 协 方差 矩阵 LXL 

















Rn ini n 时 刻 给 定 观测 值 Yi oY2se Yri» 状态 的 预测 估计 






























n 时 刻 给 定 观测 值 mn ,yz ,…,y*， 状态 的 预测 估计 MX1 
Ga 7 时刻 的 卡尔 曼 增益 MXL 
Gn n 时刻 的 新 息 过 程 | LX1 
R, 新 息 过 程 a 的 协 方 差 矩阵 | LXL 
Pa |n-1 预测 误差 协 方差 矩阵 MXM 
Pain 滤波 误差 协 方差 矩阵 MXM 


$214.2 总结 出 的 卡尔 曼 滤 波 器 通常 被 称 做 协 方差 (卡尔 曼 ) 滤波 算法 。 这 一 术语 来 源 于 
该 算法 需 在 一 次 完整 的 递归 计算 循环 中 传播 表示 预测 的 协 方差 矩阵 P,,-: 。 
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表 14.2 基于 滤波 状态 估计 的 卡尔 曼 滤 波 器 总 结 


观测 值 = Cy ,yz ,*… ,yn} 
已 知 的 参数 

DEBE = Ant la 

WU dat i EB, 

动态 噪声 的 协 方差 矩阵 一 Q.,， 

测量 噪声 的 协 方差 矩阵 = Qu, 
HB: n=1, 2, 3, 

Gn =P, | n—-1 BF [B, Pp n1 BI +Qo.n]7? 

On = Yn — By Kn n-i 

Rn [n= Ên jn-1 Gn oe 

Ratt n= Antin nja 


Pi |n = Pn [a1 — Ga By Pa n1 

Patt in = Antin Pa n ATH, n Qa,n 
初始 条 件 : 

ĝi o =E[Lx J 


Pio =EL -E On) O EL DT] To 
EEN 是 对 角 阵 ， 对 角 线 上 的 元 素 均 为 671, 5 是 一 个 很 小 的 数 。 





图 14. 3 是 卡尔 曼 滤波 器 的 信号 流程 图 ， 其 中 一 工 表示 一 组 单位 延 时 。 从 这 幅 图 可 以 清楚 
地 看 出 卡尔 曼 滤 波 器 是 一 个 双 回 路 反馈 系统 。 其 中 一 个 反馈 回路 包括 了 系统 RE) 模型 的 状 
态 转移 矩阵 A,.:， 起 预测 作用 。 第 二 个 反馈 回路 包括 了 测量 模型 中 的 和 矩阵 B,， 起 修正 作用 。 
这 两 个 反馈 回路 一 起 作用 产生 对 x, 的 滤波 状态 估计 ， 即 输出 与 观测 值 ya 对 应 的 部 。。 除 此 之 
外 ， 正 如 图 14. 3 描绘 的 那样 ， 卡 尔 曼 滤波 器 还 是 一 个 可 以 用 于 实时 应 用 的 系统 。 实 际 上 ， 我 
们 也 有 包括 上 述 两 个 反馈 回路 的 全 局 的 反馈 回路 。 





a 对 x, 的 滤波 
yY 状态 估计 





图 14.3 卡尔 曼 滤波 器 的 信号 流程 图 ， 用 一 个 双 回 路 反馈 系统 来 描述 


由 于 卡尔 曼 滤 波 器 的 关键 部 分 卡尔 曼 增 益 G 会 随时 间 n 的 改变 而 变化 ， 因 此 我 们 说 卡尔 
曼 滤 波 器 是 随时 间 变 化 的 滤波 器 。 即 使 在 原始 动态 系统 的 状态 空间 模型 具备 时 间 不 变 特性 的 情 
况 下 ， 这 一 性 质 依然 存在 。 


14.4 发 散 现象 及 平方 根 滤 波 


表 14. 2 所 总 结 的 协 方差 滤波 算法 容易 遇 到 数值 困难 ， 在 一 些 文献 中 已 经 充分 说 明 〈Ka- 
minski 等 ，1971; Bierman 和 Thornton，1977)。 

在 实际 应 用 中 ， 有 两 种 基本 的 途径 能 导致 数值 困难 。 一 个 是 数值 不 精确 。 具 体 来 说 ， 如 
式 (14. 3D fR, ERE P,,, 是 两 个 非 负 定 矩 阵 的 差 值 。 因 此 ， 除非 算法 中 的 每 一 次 循环 都 能 保 
证 足够 高 的 数值 精度 ， 才 有 可 能 使 得 计算 结果 的 矩阵 满足 对 称 性 和 非 负 定性 。 而 根据 
式 (14. 36) ,P.i, 是 协 方差 矩阵 ， 其 必须 满足 非 负 定性 。 因此 实际 应 用 与 理论 间 产 生 了 了 矛盾， 计 
算 过 程 中 数值 误差 的 存在 将 导致 卡尔 曼 滤波 器 行为 的 不 稳定 。 卡尔 曼 滤 波 器 的 这 种 非 稳定 行为 
通常 称 为 发 散 现象 。 
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在 实际 应 用 中 还 有 另 一 途径 可 能 导致 发 散 现 象 。 卡 尔 曼 滤波 器 的 导出 过 程 基 于 式 (14. 4)、 
式 (14. 5) 所 描述 的 线性 高 斯 状态 空间 模型 。 而 这 一 模型 源 于 尚 在 研究 中 的 动态 系统 底层 理论 ， 
此 亦 可 能 导致 该 算法 的 不 稳定 。 虽 然 算法 是 由 现实 的 观测 值 序列 驱动 的 ， 但 是 算法 的 数学 导出 
是 基于 假设 的 状态 空间 模型 。 因 此 ， 实 际 应 用 与 理论 再 次 产生 矛盾 ， 并 由 此 可 能 导致 前 述 的 算 
法 的 发 散 。 
考虑 到 这 些 实际 关系 ， 我 们 或 许 会 提出 这 样 的 疑问 : 
在 实际 应 用 中 ， 如 何 克 服 发 散 现 象 以 确保 卡尔 曼 滤 波 器 的 操作 是 稳定 的 呢 ? 
下 面 将 讨论 这 一 重要 问题 的 实际 解决 办 法 。 
Ey ME 
一 个 数学 上 优美 且 计 算 上 可 行 的 ， 解 决 发 散 问题 的 方法 就 是 利用 平方 根 滤波 。 其 思想 是 对 
卡尔 曼 滤波 器 进行 修正 ， 在 算法 的 每 一 次 循环 中 使 用 数值 稳定 的 正 交 变换 。 具 体 而 言 ， 应 用 乔 
里 斯 基 分 解 可 以 将 P, ,转换 为 其 平方 根 的 形式 ， 由 此 可 得 : 
Pi, = Pre Pak (14, 39) 
Hr, PY BS FER, PVRS. ERERM ST, BHAT BAA PLU 
是 矩阵 P,,, 的 平方 根 。 需 要 特别 注意 的 是 矩阵 积 P4.Pz4 可 能 是 不 定 的 ， 因 为 任意 矩阵 和 其 转 
置 矩 阵 的 乘积 始终 是 非 负 定 的 。 正 因为 如 此 ， 即 便 存在 数值 误差 ， 通 常 乔 里 斯 基 系 数 Ph 仍然 
优 于 P,,, 本 身 。 
卡尔 曼 滤波 器 的 平方 根 实现 
线性 代数 中 的 矩阵 分 解 引 理 是 平方 根 滤 波 算法 的 关键 。 设 有 任意 两 个 工 XM 维 的 矩阵 XX 和 
Y， 其 中 工 入 M， 则 矩阵 分 解 引 理 的 表述 如 下 (Stewart，1973;， Golub and Van Loan, 1996): 
等 式 XXT 一 YYT RZ, SARSAALERERO, KF 
Y = xo (14. 40) 
为 了 证 明 这 一 引 理 ， 我 们 可 以 将 矩阵 积 YY 表示 为 
YY’ = XGO(CXO)7 = XOOTIXT7 = XX" 
在 上 式 的 最 后 一 行 ， 我 们 使 用 了 正 交 和 矩阵 @ 的 性 质 ， 即 
正 交 给 阵 与 其 转 置 的 积 是 单位 矩阵 
由 这 一 性 质 可 推出 : 
o~ = 0" (14. 41) 
BIEZ RA MERET E I EE. 
有 了 上 述 引 理 ， 我 们 可 以 开始 讨论 卡尔 曼 滤波 器 的 平方 根 协 方差 实现 问题 。 首 先 ， 我 们 应 
用 式 (14. 31) 及 式 (14. 38) 中 对 增益 矩阵 G, 的 定义 ， 可 得 : 
P,a = P,e 一 Poa BT RB, Pat (14. 42) 
其 中 R, 的 定义 由 式 (14. 22) 给 出 。 为 了 表示 的 方便 将 上 式 重 写 为 : 
R, = B, P,e Bi + Qon 
观察 式 (14. 42) 重 新 用 公式 表示 出 的 黎 卡 提 微 分 方程 ， 我 们 可 以 发 现 等 号 的 右 端 包含 了 3 个 不 
同 的 矩阵 项 : 
MXL 维 的 矩阵 : 预测 状态 P,1;-1 的 协 方差 矩阵 
LXM 维 的 矩阵 : REP, 1,_1 的 测量 矩阵 B, 
LXL 维 的 矩阵 ， 新 息 过 程 的 协 方差 矩阵 R, 
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在 率 记 这 三 个 矩阵 项 不 同 维 数 的 同时 ， 用 一 致 的 形式 将 其 整合 在 一 个 N XN 的 分 块 矩 
阵 中 
BR [ena [Qt BP Br i B, Pair 
-| aea B i Pa |- | Pi BT Ps l (14. 43) 
其 中 ， 在 第 二 个 等 号 后 ， 加 入 了 关于 R, 的 式 子 。 式 (14. 33) PRERA NXN BODE, N= 
LEM. AREE, MADRE H 是 非 负 定 的 。 因 此 我 们 对 其 进行 乔 里 斯 其 分解 ， 可 得 : 
[Qi BPa Qe i OF 
H = o : PÈ, IE : ai | (14. 44) 
其 中 ，P 几 ,是 协 方差 矩阵 了 ,1,1 的 平方 根 ，O 是 零 矩 阵 。 
式 (14. 44) 等 号 右边 的 矩阵 乘积 可 理解 成 矩阵 X, 及 其 转 置 XT 的 乘积 。 由 此 可 知 其 满足 应 
用 抢 阵 分 解 引 理 的 条 件 ， 根 据 该 引 理 利 用 式 (14. 40) 得 : 


V2 i B, Paf Yir OF 
[S e Let ve (14. 45) 
' 2lan “ 22. 
SY "1 s 
X, Y, 


APEE ©, JEZER, BOM, © 与 X, 的 乘积 Y, ATIA, MET Y, 主 对 角 
线 上 方 的 元 素 均 为 零 。 因 此 ，@, 通常 称 作 正 交 旋转 。 利 用 @, 正 交 的 特性 ， 可 将 式 (14. 45) R 


开 为 : 

1/2 : B, PY 2/2 ， oT Y : o7 YZ, : OZ, 
[S s ae | | Pen |= Faz pose | [rae | (14. 46) 

O | Poe Pie. BP Pa Ya © Yoon OT™ ;YE 

一 Iln on — y 
x, x, Y, y7 

展开 和 矩阵 的 乘积 X,XT 和 Y,Y7， 建 立 等 式 两 边 相对 应 矩阵 块 之 间 的 相等 关系 ， 得 到 三 个 式 子 ; 
Quan + BP 1 Ba 一 YaoYh。 (14. 47) 
B, Papi = Yin YE, (14. 48) 
Pami = Yai, Ya + Yo2nV 22.0 (14. 49) 


式 (14. 47) FS IH A ML ER. RT RR ROR”. Ai, RAA 47) 中 的 
第 一 个 未 知 项 满足 ， 


Yu. = R” (14. 50) 
接着 ， 将 Ya,, 的 值 代 人 式 (14. 48), ， 解 出 Yn. ， 由 此 我 们 得 到 了 第 二 个 未 知 项 的 表达 式 : 
Youn = Pri BIR,” (14. 51) 
根据 前 面 卡尔 曼 增益 G, 的 定义 和 式 (14. 31) ， 也 可 以 将 Yan RRN: 
Yo. = G,RY: (14. 52) 


再 者 ， 将 式 (14. 51) 中 Yn WARK. 19), 计算 矩阵 积 Ya Yow» SRI ALAR C14. 42), 
我 们 可 以 得 到 : 

Ya Yh, 一 Pi 一 Pae BT R,’ B, Pi = Par 
将 协 方差 矩阵 P,,, 分 解 为 PP 人 ， 可 以 得 到 第 三 个 未 知 项 : 


Yoon = Pale (14. 53) 
在 确定 了 Y, 的 三 个 非 零 子 矩阵 后 ， 我 们 可 替换 式 (14. 45) 中 的 未 知 子 矩阵 ， 得 到 : 
QI : B, Pie RY: QO 
aan je = [ex Sa C14. 54) 


在 最 终 得 到 的 式 (14. 54) 中 ， 仔 细 观 察 我 们 可 以 区 分 两 个 定义 清楚 的 数值 矩阵 : 
L 前 矩阵 。 此 矩阵 是 位 于 式 (14. 54) 等 号 左 侧 的 数值 矩阵 。 它 与 @, 相 乘 的 目的 是 逐个 元 
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素 的 消去 整个 子 和 矩阵 B Ph. WEER B。 和 测量 噪声 的 协 方差 矩阵 Q,., 均 是 已 知 量 。 平 方 根 
Pi? 经 数值 更 新 后 也 是 已 知 的 。 因 此 ， 在 ”时 刻 ， 组 成 前 矩阵 的 所 有 子 矩 阵 均 是 已 知 的 。 

2. 后 和 矩阵 。 此 矩阵 是 位 于 式 (14. 54) 等 号 右 侧 的 数值 矩阵 。 它 是 由 前 矩阵 经 正 交 旋转 消去 
B,P:%-, 后 得 到 的 下 三 角 和 矩阵 。 特 别 地 ， 在 前 矩阵 中 所 包含 的 平方 根 Q 冯 产生 了 两 个 有 用 的 
矩阵: 

。 矩阵 RI?*， 表 示 了 新 息 过程 w 的 协 方差 矩阵 的 平方 根 。 

。 矩阵 的 乘积 G,R* ， 用 于 计算 卡尔 曼 增 益 。 

另 一 个 由 计算 后 矩阵 而 得 到 的 重要 的 矩阵 是 滤波 误差 协 方差 矩阵 的 平方 根 Pi o 

有 了 从 后 矩阵 提取 出 的 信息 ， 我 们 可 以 对 平方 根 协 方差 滤波 算法 中 涉及 的 计算 过 程 加 以 总 
结 。 其 已 在 表 14. 3 中 列 出 。 该 算法 一 个 完整 的 递归 循环 包括 了 前 矩阵 到 后 矩阵 的 变换 以 及 各 
参数 的 更 新 计算 。 关 于 参数 的 更 新 已 经 在 表 中 3、4 两 项 分 别 列 出 。 从 表 中 可 以 很 清楚 地 看 出 ， 
该 算法 确实 是 在 传播 预测 误差 协 方差 矩阵 的 平方 根 Pw; 。 


表 14.3 平方 根 滤波 算法 的 计算 总 结 


m 


已 知 的 参数 : 

AREP: Antin 

测量 矩阵 B, 

测量 噪声 的 协 方 差 矩 阵 : Qon 

动态 噪声 的 协 方差 矩阵 Qu. 

. 待 更 新 的 参数 值 : 

状态 的 预测 估计 ， 吉 1-1 

预测 误差 协 方差 矩阵 的 平方 根 Ph- 


nw 


3. JEA EE E H A RHE ERR: 
QU? ;BPY2 一 1 Ri? : OF 
| oF PHB Je- lew tn] 
4. 已 更 新 的 参数 : 
G,= [G,R¥?] [RY?]-! 
On 一 yn — By Rn jn-1 


X In = Rn jn Gr On 
Rati |n = Antl ake la 
Pp |n = P1 CPL] 
， PIAF in 
Paia ls TAn PY OUA if PAP 
wh 


BLA: 
1. 第 4 点 中 ，, 方 括号 中 所 有 的 矩阵 都 是 从 后 矩阵 中 提取 出 的 ， 并且 是 已 知 的 。 
2. 书写 已 更 新 参数 时 ， 使 用 了 表 14. 2 的 相关 计算 公式 。 


吉文 斯 旋转 

到 目前 为 止 ， 在 用 公式 表示 平方 根 协 方差 滤波 算法 的 过 程 中 ， 我 们 更 多 地 关注 通过 消去 过 
程 将 前 矩阵 转换 为 下 三 角 后 矩阵 ， 而 忽略 了 如 何 确定 正 交 和 抢 阵 @,。 解决 这 一 问题 的 巧妙 方法 
就 是 利用 吉文 斯 旋转 的 方法 ， 具 体 实现 是 多 步 的 (Golub 和 Van Loan, 1996), 

在 这 一 方法 中 ， 正 交 和 矩阵 @, 被 表示 为 N 个 正 交 旋 转 的 积 ， 用 下 式 表 示 : 


o= [Jo 
这 里 ， 我 们 不 考虑 离散 时 间 以 简化 其 表述 。 每 个 正 交 旋 转 的 特点 如 下 : 
1. ©, 对 角 线 上 除 四 个 关键 元 素 外 的 其 他 元 素 均 为 1， 非 对 角 线 上 的 元 素 均 为 0。 
2. O: 的 下 标 & 称 为 关键 点 ， 围 绕 关 键 点 定位 O 的 四 个 策略 元 素 。 由 上 条 特性 可 知 ， 关 键 
点 总 是 位 于 前 矩阵 的 主 对 角 线 上 。 
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3. 策略 元 素 中 的 两 个 为 余弦 参数 ， 另 外 两 个 为 正弦 参数 。 为 了 更 为 详细 的 阐述 这 些 正 、 
余弦 参数 的 数学 意义 ， 现 假设 欲 消 去 前 矩阵 的 第 AL 个 元 素 ， 其 中 上 为 行 数 ! 为 列 数 。 因 此 ， 对 
应 的 余弦 参数 〈 位 于 主 对 角 线 上 ) pA Ww 具有 相同 的 值 ， 而 正弦 参数 (位 于 主 对 角 线 外 ) 中 
的 一 个 必须 为 负 值 ， 如 下 2X2 矩阵 所 示 : 


One Oy Cr — Sp 

le n= [Ñ Ca | (14. 55) 
所 有 的 四 个 参数 均 为 实数 值 ， 并 需 满 足以 下 约束 : 
全 十 或 二 1 ， 对 于 所 有 (14. 56) 


下 面 的 例子 演示 了 将 前 矩阵 转换 为 下 三 角 后 矩阵 的 具体 步骤 。 
例 1 3X3 前 矩阵 的 吉文 斯 旋转 
假设 欲 将 3X3 的 前 矩阵 XX 转换 为 3X3 的 下 三 角 后 矩阵 Y， 需 经 过 三 个 步骤 。 


步骤 一 : 在 第 一 步 中 ， 计 算 
aioa 0 un Ws tas 
si : ci Ol = | uz uz uz (14. 57) 


0 l a X33 0! 0 1 Us Usz Us 
一 ”一 一 
第 一 步 的 前 矩阵 ”第 一 次 吉文 斯 旋转 第 一 步 的 后 矩阵 


前 矩阵 中 的 两 个 零 元 素来 源 于 式 (14. 54), H 
Wiz 一 一 Ins 十 Ti 


由 于 需要 将 wz 变换 为 0， 因此 需 满足 以 下 条 件 ， 


之 12 
51 一 一 61 
il 


利用 f+ =1 解 出 ct 和 5 ， 我 们 定义 式 (14. 57) 中 的 第 一 个 正 交 旋 转 : 
oo (14. 58) 
VT + ziz VESE 十 zl 
步骤 二 ， 在 第 二 步 中 ， 计 算 
Ui 0 113 co 0 一 9 Un 0 Vis 
Uz Uz 5 f 1 0 | = > Uz2 | (14. 59) 


Val Uz 33 














Uz, Uz, tag 


第 二 步 的 前 矩阵 ”第 二 次 吉文 斯 旋转 ”第 二 步 的 后 矩阵 


其 中 
UV = Uns 十 wiaca 
由 于 希望 将 za 变换 为 0， 因此 需 满 足以 下 条 件 : 
s = e 
Ui 
HA site =1 解 出 co 和 s;， 我 们 定义 式 (14. 57) 中 的 第 二 个 正 交 旋 转 : 


cs = OQ 413 (14. 60) 
Vv PA + wls VY uli 十 ui 
步骤 三 : 对 第 三 步 也 是 最 后 一 步 ， 计 算 


Vii 0 0 1 0 0 iu 0 0 ， . 
QO cs Ss) = ya yz Yz (14. 61) 
0 S3 C3 33 
一 -一 


31 Jz 
YY 


第 三 步 的 前 矩阵 第 三 次 吉文 斯 旋转 第 三 步 的 后 矩阵 








Uz VU32 U3 
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其 中 
yaa 一 一 Vz $3 十 wzscs 


由 于 希望 将 ys 变换 为 0， 因此 需 满 足以 下 条 件 ， 


U23 
53 一 一 5C3 


利用 $3 十 c= 二 1 解 出 c 和 ss， 我 们 定义 式 (14. 57) 中 的 第 三 个 正 交 旋转 : 


Uz2 Uz3 


a 二 —— sn = — (14. 62) 


VY v22 十 23 Vv Ube + v23 
由 上 述 三 步 转换 的 最 后 乘积 是 一 个 下 三 角 后 和 矩阵， 


Yu 0 0 
Y= |》 yz 0 
31 J32 Yz . 
这 是 我 们 需要 的 结果 。 E 


14.5 扩展 的 卡尔 曼 滤 波 器 


14.3 节 中 所 讨论 的 卡尔 曼 滤 波 器 问题 ， 提 出 了 由 式 (14. 4)、 式 (13. 5) 的 线性 状态 空间 模 
型 描述 的 对 动态 系统 进行 状态 估计 的 问题 。 但 是 ， 如 果 动 态 系统 是 如 式 (14. DARL 8) 定 义 
的 那样 非 线 性 服从 高 斯 分 布 的 ， 我 们 可 以 通过 线性 化 系统 的 非 线 性 空间 状态 模型 的 方法 ， 扩 展 
卡尔 曼 滤波 器 的 应 用 范围 。 这 一 扩展 的 状态 估计 器 即 为 扩展 的 卡尔 曼 滤 波 器 。 这 一 扩展 是 可 行 
的 ， 因 为 卡尔 曼 滤 波 器 是 在 离散 时 间 系 统 的 情况 下 ， 用 差分 方程 的 形式 来 定义 的 。 
为 了 确定 扩展 的 卡尔 曼 滤波 器 的 实现 策略 ， 我 们 首先 需要 对 定义 卡尔 曼 滤波 器 的 式 子 进行 
一 些 细微 的 变化 ， 以 使 得 其 更 利于 现在 的 讨论 。 
卡尔 曼 滤 波 器 定义 式 的 变形 
首先 我 们 应 用 式 (14. 9) 和 式 (14. 18) 重 写 新 息 过 程 的 定义 式 : 
an, = Yn — b, (Rre) (14. 63) 
紧 接 着 ， 做 如 下 的 观察 : 我 们 假设 实现 卡尔 曼 滤波 器 除了 使 用 式 (14.4) 和 式 (14.5) 的 状态 等 
式 ， 还 有 如 下 状态 空间 模型 的 替换 形式 : 
Xa 一 和 Ho F On 十 En (14. 64) 
和 
Ya = BX, + Vn (14. 65) 
式 (14. 65) 中 给 出 的 测量 模型 和 式 (14.5) 所 给 出 的 模型 是 完全 相同 的 。 然 而 ， 式 (14. 64) 和 
式 (14.4) 所 定义 的 状态 空间 模型 主要 不 同 点 在 于 引入 了 新 的 参数 & ， 其 被 假设 为 已 知 的 《如 非 随 
机 的 ) 向 量 。 由 此 ， 在 不 考虑 式 (14. 32) 对 其 作出 的 修改 ,卡尔 曼 滤波 器 可 被 表述 为 如 下 形式 : 


Kittin = Antin Xan + &, (14. 66) 
这 一 修改 是 为 了 接 下 来 将 讨论 的 扩展 的 卡尔 曼 滤波 器 的 实现 。 
实现 扩展 的 卡尔 曼 滤 波 器 的 预备 步骤 


如 前 文 所 述 ， 扩 展 的 卡尔 曼 滤波 器 EKF) 是 一 个 近似 解 ， 使 得 我 们 可 以 将 卡尔 曼 滤波 的 
思想 扩展 到 非 线 性 状态 空间 模型 (Jazwinski，1970; May beck，1982)。 这 里 考虑 的 非 线 性 状 
态 空间 模型 是 式 (14. DARC. 8) 所 描述 的 形式 ， 再 次 列 出 只 是 为 了 表述 的 方便 : 

Xi = a,(x,) +a, (14. 67) 
和 
Ya = b, (x) +4, (14. 68) 
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如 前 文 所 述 ， 动 态 噪 声 o 和 测量 噪声 vy, 是 无 关 的 均值 为 零 的 高 斯 噪声 过 程 。 其 协 方差 矩阵 分 
别 为 Q. .和 Q..。 此 外 ， 非 线性 模型 可 能 随时 间 而 改变 ， 因 此 用 向 量 函 数 a.(*) 和 b,(*) 的 下 标 
n 表述 这 种 变化 。 

扩展 的 卡尔 曼 滤 波 器 (EMF) 的 基本 思想 是 在 每 个 时 间 点 ， 围 绕 最 近 状 态 估计 结果 对 
式 (14. 67) 和 式 (14. 68) 中 定义 的 状态 空间 模型 线性 化 。 此 估计 可 能 是 滤波 估计 也 可 能 是 预测 估 
计 ， 其 取决 于 线性 化 过 程 中 究竟 谁 起 作用 。 一 旦 得 到 了 线性 化 模型 ， 我 们 就 可 以 使 用 卡尔 曼 滤 
波 器 的 相关 公式 了 。 

这 一 近似 过 程 分 为 如 下 两 阶段 : 

阶段 1 新 矩阵 的 构建 

通过 求 偏 微分 ， 构 建 下 述 两 个 矩阵 ， 








_ Oa, (Xx) 
Avian 一 Ox 8, (14. 69) 
和 
p, = 2b. (14. 70) 
ox Rd 





ARK, BM AL... Wis 个 元 素 等 于 向 量 函 数 a, (x) 的 第 i 个 分 量 对 向 量 x 的 第 7 个 分 
量 的 偏 微分 。 同 样 的， 测量 矩阵 B, HOS if 个 元 素 等 于 向 量 函 数 b, (x) 的 第 i 个 分 量 对 向 量 x 的 
第 j 个 分 量 的 偏 微分 。 前 者 在 滤波 状态 为 名 |, 时 估计 ， 后 者 在 预测 估计 名 1,-! 时 估计 。 当 高 1, 和 
nin GRA, Antin AB, 均 可 计算 。 

例 2 二 维 非 线性 模型 

设 一 由 下 述 二 维 非 线性 状态 空间 模型 描述 的 动态 系统 : 

Diath Ti,n + bin Wyn 
[|= ee T Lina, H "| 
Yn = Lr, 2n + Un 
此 例 中 ， 有 
Lin + Zin | 

NZ14n — Li,nLe,n 


a, (x,) = | 
和 


b, (xn ) 一 Li nL bn 


应 用 式 (14. 69) 和 式 (14. 70) 可 得 : 


1 2 下 zln 
AHin 一 | A A 
n— Lain 一 Livaln 
B, = EA 2 ln Zone ] 


阶段 2 空间 模型 线性 化 
一 旦 构建 了 转移 矩阵 A,+:,。 和 测量 矩阵 B,， 它 们 可 被 用 于 对 非 线性 函数 a 《x,) 及 b, (xa) E 
绕 状 态 估 计 名 +1,, 和 名 1, 分 别 进 行 的 一 阶 泰 勒 近似 中 。 具 体 来 说 : 


a, OX) A a, (Kin) Anti LX, — Rand (14.7) 
和 
b, (Xn) œ b, CR) + Box — aad (14. 72) 
有 了 上 述 近 似 表示 ， 我 们 可 以 近似 表示 式 (14. 64) 和 式 (14. 65) 的 非 线性 状态 等 式 。 近 似 结果 分 别 为 : 
Xan © Årh, n Xa 十 On F En (14.73) 


和 
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y, ~ B,x, + y, (14. 74) 


这 里 ， 我 们 引入 了 两 个 新 的 量 : 系统 模型 中 的 E 和 测量 模型 中 的 浆 。 两 者 的 定义 如 下 : 
B= a, (Kiln) — Artin Rain (14. 75) 
All 
Ya = Yn — Lb, (Ki ) — By Xai ] (14. 76) 


HP, an ni) A bn (名 1,-1) 分 别 是 给 定 的 非 线 性 函数 an (Xp) A Dy Xp) LE Xa = Kn in A Xa = n aia HF 
的 估计 值 。 如 果 联 系 式 (14. 69) 中 给 出 的 AL BRM, BAMA MME, 对 任意 时 刻 n 均 
是 已 知 的 。 其 论证 了 我 们 先前 观察 的 有 效 性 。 同 理 ， 根 据 式 (14. 70)B, 是 已 知 的 ， 所 以 第 二 个 
新 引入 的 项 3 对 任意 时 刻 n 均 是 已 知 的 。 因 此 ， 我 们 可 以 将 去, 祝 为 线性 化 模型 在 2 时刻 有 效 
的 观测 向 量 。 


扩展 的 卡尔 曼 相 波 器 的 实现 


式 (14.73) 和 式 (14.74) 所 描述 的 近似 状态 空间 模型 ， 是 与 式 (14. 64) 和 式 (14. 65) 所 描述 的 
有 相似 的 数学 表达 形式 的 线性 模型 。 两 者 的 唯一 细微 差别 在 于 ,为 了 模型 的 线性 化 ， 
式 (14. 65) 中 的 观测 值 y(n) 由 新 的 观测 值 代替。 基于 这 一 目的 ,我 们 已 经 预先 将 式 (14. 64) 
和 式 (14. 65) 的 状态 空间 模型 公式 化 了 。 
因此 ， 扩 展 的 卡尔 曼 滤 波 器 CEMF) 的 定义 公式 和 表 14.2 中 卡尔 曼 滤波 器 的 定义 公式 类 
似 ， 只 是 用 表 14. 4 描述 的 方式 ， 对 卡尔 曼 滤 波 器 的 表 14. 2 中 的 第 二 个 和 第 四 个 公式 进行 了 相 
应 的 修改 。 


表 14.4 扩展 的 卡尔 曼 滤 波 器 的 总 结 
输入 过 程 : 
Observations=[y1, yor **, Yal 
已 知 参 数 : 
非 线 性 状态 向 量 函 数 二 a (x, ) 
非 线性 测量 向 量 函 数 二 b, Cx) 
过 程 曲 声 向 量 的 协 方差 矩阵 二 Q,.， 
测量 噪声 向 量 的 协 方差 矩阵 二 Q,,， 
计算 ; nm 一 1，2，3，… 
G, 一 Po 1BTLB,P。1B7 十 Quo] 一: 
tn = yn — bs CK, 1n—1) 
Ri (n= Rn (2-1 Gna 
Ret | n= anl nn) 
P, |n = Pa 1 一 GBP a1 
Pati [n = Ant 1n Pn |n Aft iin | Qo,n 





说 明 : 
1. 线性 化 的 矩阵 Antin A B, 是 从 它们 相应 的 非 线 性 函数 aw (x4)、by (xn)， 分 别 用 式 (14. 69) 和 式 (14. 70) 计 算得 到 的 。 
2. An Rain) 和 bs( 双 ,1s-1) 的 值 是 通过 将 非 线性 向 量 函 数 an (OX). ba (x;) 中 的 状态 x, 分 别 蔡 换 为 滤波 状态 估计 
,14 和 预测 状态 估计 名 1,-! 得 到 的 。 
检查 表 14. 4 的 迭代 顺序 ， 现 在 知道 用 式 (14. 69)、 式 (14. 70) 描 述 的 方式 为 Artin A B, 赋值 的 原因 。 
初始 条 件 : 
ĝi o =[ELxi J 
P; o =EL% -ECx D Cx —ELx T] Mo 
HH, I= 1, 6 是 一 个 小 的 正常 数 ,I 是 单位 矩阵 。 


s 


对 扩展 的 卡尔 曼 述 波 器 的 评价 
扩展 的 卡尔 曼 滤 波 器 在 非 线 性 状态 估计 领域 得 到 关注 的 原因 主要 有 两 个 : 
1. 扩展 的 卡尔 曼 滤波 器 建立 在 卡尔 曼 滤 波 器 理论 的 框架 之 上 ， 有 和 较 强 的 理论 依据 。 
2. 扩展 的 卡尔 曼 滤 波 器 相对 易于 理解 ， 因 此 被 直接 用 于 实践 ， 并 已 有 相当 长 的 应 用 历史 。 
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然而 ， 扩 展 的 卡尔 曼 滤波 器 有 两 个 主要 缺点 ， 限 制 了 它 的 应 用 范围 : 

1. 为 使 扩展 的 卡尔 曼 滤 波 器 能 令 人 满意 地 运行 ， 状 态 空间 模型 的 非 线性 必须 是 轻 度 的 ， 
以 满足 应 用 一 阶 泰勒 展开 式 的 条 件 。 这 是 扩展 的 卡尔 曼 滤 波 器 的 理论 基础 。 

2. 扩展 的 卡尔 曼 滤 波 器 的 实现 ， 需 要 非 线 性 动态 系统 的 状态 空间 的 一 阶 偏 微 分 “如 函数 
行列 式 ) 的 相关 知识 ， 这 一 内 容 尚 处 于 研究 阶段 。 然 而 ， 在 许多 实际 应 用 中 ， 函 数 行列 式 的 计 
算 结果 难以 令 人 满意 或 根本 无 法 计算 。 

为 了 指出 扩展 的 卡尔 曼 滤波 器 的 局 限 性 ， 描 述 状态 估计 的 贝 叶 斯 方法 是 有 意义 的 ， 我 们 将 
在 下 一 节 做 详细 的 讨论 。 


14.6 贝 叶 斯 滤波 器 


采用 贝 叶 斯 滤波 器 解决 动态 系统 的 状态 估计 问题 ， 从 线性 到 非 线性 ， 是 由 于 至 少 它 在 概念 
上 为 动态 系统 状态 估计 提供 了 统一 的 框架 ， 因 此 把 它 作 为 这 一 节 的 标题 。 

自然 地 ， 概 率 原 理 是 解决 状态 估计 问题 的 贝 叶 斯 方法 的 核心 。 为 了 易于 表示 ， 下 面 我 们 用 
“分 布 ” 一 词 表示 概率 密度 函数 。 些 外， 参照 式 (14. 1) 的 系统 状态 ) 模型 和 式 (14. 2) 的 测量 
模型 ， 使 用 以 下 标记 : 


Y, 一 观测 值 序列 ， 表 示 (yii 
六 (xs | Yai) 一 在 当前 时 刻 x， 给 定 整 个 观测 序列 直到 并 包括 yit, RE x 的 先 验 分 布 。 

二 给 定 整 个 观测 序列 直到 并 包括 当前 时 刻 x 时 ， 当 前 状态 mm WEBS, 这 一 分 布 一 般 简 单 地 称 
p(x, | Ya) ne 

为 “后 验 ”。 

一 给 定 最 近 的 过 去 态 m-i MARE x 的 过 渡 态 分 布 ; 这 一 分 布 一 般 称 为 “过 渡 先 验 ” 或 者 
PO | Xn—1) “ ” 

先 验 ”。 
LCyn | Xn) 一 给 定 当 前 状态 xz ， 当 前 观测 值 yw 的 似 然 函数 。 


贝 叶 斯 滤波 器 的 实现 ， 唯 一 的 假设 是 状态 的 变化 是 服从 马尔 可 夫 过 程 的 ; 这 一 假设 也 隐 含 
在 卡尔 曼 滤 波 器 的 公式 和 公式 的 变 体 中 ， 这 些 在 本 章 之 前 的 部 分 讨论 过 。 基 本 上 ， 该 假设 包含 
了 以 下 两 个 条 件 的 结合 : 

1. 给 定 状 态 序 列 Xo ,Xi stt Kea eX» 当前 状态 x, 仅 取 决 于 最 近 的 过 去 态 x,-1> 通过 状态 过 
渡 分 布 p(x, lx )。 初 始 态 x 是 分 布 式 的 ， 根 据 

P(X | Yo) = P(X) 

2. 观测 值 mn ,yz ，…，y。 仅 条 件 依 赖 于 相应 的 状态 xl ,Xz ，… Kes 这 一 假设 意味 着 观测 值 的 条 

件 联合 似 然 函数 〔 例 如， 所 有 观测 值 的 联合 分 布 与 直到 且 包 括 ”时 刻 的 状态 有 关 ) 如 下 


Lyi sz 9200 Vn |X, X29... +X, ) = [PG [ x,) (14. 77) 


后 验 分 布 5Cx | Y,) 在 贝 叶 斯 分 析 中 至 关 重 要 ， 它 包含 了 在 时刻 ， 已 经 接收 整个 观测 序 
FY, 的 条 件 下 ， 关 于 状态 x 的 全 部 知识 。 因 此 ，p(Cx |Y,) 包 含 了 所 有 状态 估计 的 必要 信息 。 
假设 ， 例 如 希望 决定 状态 x, 满足 最 小 均 方 误差 (MMSE) 时 最 优 的 滤波 估计 ， 根 据 贝 叶 斯 信 
计量 ,需要 的 解 是 

tn = Ez Lx, |Y, | = [xpa | Y) dx, (14. 78) 
相应 地 ， 为 了 滤波 估计 允 ,， ,精度 的 评估 ， 计 算 协 方差 矩阵 
P,a = Eel Cx, — Ran) Xn — Kae)” J = | Ge — Ran) Cte — un) Tp Cx | Yn) dx (14. 79) 


计算 效率 已 经 成 为 令 人 关注 的 实际 要 素 ， 因 此 ， 用 递归 的 方式 计算 滤波 估计 名"-: 和 相关 
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的 参数 是 非常 必要 的 。 假 设 我 们 有 n 一 1 时 刻 状态 x, :的 后 验 分 布 p(x. |Y). IA n mA 
的 状态 的 后 验 分 布 的 更 新 值 ， 通 过 以 下 两 个 基本 的 时 间 步 又 产生 ， 
L 时 间 和 更新， 包括 给 定 观测 序列 Y，_,， 计 算 x 的 预测 分 布 ， 如 下 所 示 





pas | Ym) = | Pb LXer)? Ober [Yo die (14. 80) 
Vv — 
HR Ai RRAN BA 


这 一 公式 用 概率 原理 的 基本 定律 证 明 如 下 : 旧 的 后 验 分 布 pCx,-1 | Y,-1) 和 先 验 分 布 p(x, | x,-1) 
HRR, BATARE x. 和 当前 状态 x, 在 Y,-: 的 条 件 下 的 联合 分 布 。 这 一 联合 分 布 对 x 
积分 ， 得 到 了 预测 分 布 p(x, lY). 

2. 测量 更 新 ， 利 用 当前 状态 x 的 包含 在 新 观测 值 六 中 的 信息 ， 计 算 更 新 的 后 验 分 布 
p(x, YD .特别 地 ， 对 预测 分 布 p Cx, |Y,-1) 运 用 著名 的 贝 叶 斯 定理 得 到 





boolY) = FO | Ver) Lye x) (14. 81) 
n 一 vv ~ 
更 新 的 后 验 分 布 预测 分 布 ” 似 然 函 数 
其 中 
Z, = plya|Y, 1) = fiy, [xd PAn | Yr) dx, (14. 82) 


是 标准 化 常数 也 称 作 分 析 函 数 ); 它 保 证 了 后 验 分 布 pa | Y,) 的 多 维 曲线 下 的 全 部 体积 是 正 
如 所 要 求 的 那样 ， 是 单位 的 。 标 准 化 常数 序列 {2Z;}-;!， 产 生 了 相应 观测 序列 {Yi} 储 ; 的 联合 对 
数 似 然 函 数 ， 如 下 所 示 


logCplyi Yoo" sy )) = >) log(Z,) (14. 83) 


式 (14. 80) Ask (14. 83) 都 是 前 面 描述 的 马尔 可 夫 假 设 的 推论 。 
在 每 个 时 间 步 又 ， 都 通过 贝 叶 斯 模型 的 计算 来 执行 时 间 更 新 和 测量 更 新 。 事 实 上 ， 它 们 构 
成 了 一 个 计算 的 递归 或 者 循环 ， 如 图 14. 4 描述 的 那样 ， 为 了 表示 的 方便 ， 省 略 了 Zo 


似 然 函 数 


先 验 分 布 

xx.) 更 新 的 
IA 预测 分 布 “后 验 分 负 
PKA Ys p(X,lY,1) Ax Y,) 


r! 


单位 时 间 延 时 





图 14.4 贝 叶 斯 滤波 器 的 框图 ， 将 更 新 的 后 验 分 布 p(x. | Y.) 作 为 所 关心 的 输出 


近似 的 贝 叶 斯 滤波 

图 14. 4 的 贝 叶 斯 滤波 器 是 概念 上 最 优 的 ， 有 以 下 两 个 有 趣 的 性 质 : 

L 模型 以 递归 的 方式 运行 ， 传 播 后 验 概率 pO, |Y,)。 

2. 提取 自 全 部 观测 过 程 Y, 的 关于 状态 x, 的 模型 知识 ， 完 全 包含 在 后 验 分 布 p(x | Y,) 中 。 

随 着 这 一 分 布 称 为 关注 的 焦点 ， 现 在 列 出 滤波 目标 的 基础 。 详 细 地 说 ， 考 虑 状态 x, 的 任 
意 的 函数 ， 记 为 h(x,)。 在 实际 的 滤波 应 用 中 ， 我们 感 兴趣 的 是 在 线 估计 函数 h(x,) 的 信号 特 
征 。 这 些 特征 包含 在 贝 叶 斯 估计 量 中 ， 用 函数 hx,) 的 总 体 平均 值 定义 ， 称 为 
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hy = ELAD] = | Ou) pul ¥en, (14. 84) 
任意 函数 后 验 分 布 
其 中 Es 是 对 后 验 分 布 p (x, |Y,) 的 期 望 ， 该 后 验 分 布 是 关于 线性 或 者 非 线 性 动态 系统 的 。 
式 (14. 84) 包 括 两 个 特例 : 关于 状态 的 滤波 估计 的 式 (14.78) 和 关于 估计 的 协 方差 矩阵 的 
式 (14.79), 说 明了 贝 叶 斯 模型 的 一 般 的 统一 框架 。 对 式 (14.78)， 有 hl(x) 王 x， 对 
式 (14.79)， 有 
hx) = Ox, — Bin) OX, — Bay)? 
其 中 的 有 是 一 个 向 量 函 数 的 形式 。 

对 于 由 式 (14. 4) 和 式 (14. 5) 的 线性 高 斯 模型 描述 的 动态 系统 的 特例 ， 式 (14. 84) 的 递归 解 
恰好 是 通过 卡尔 曼 滤 波 器 实现 的 ， 见 习题 14. 10。 然 而 ， 当 动态 系统 是 非 线 性 或 非 高 斯 的 ， 或 
者 既 非 线性 也 非 高 斯 ， 那 么 构成 式 (14. 84) 的 被 积 函 数 的 生成 分 布 不 再 是 服从 高 斯 分 布 的 ， 这 
造成 了 最 优 贝 叶 斯 佑 计量 及 的 计算 困难 。 对 于 后 一 种 情况 ， 我 们 别 无 选择 只 能 放弃 贝 叶 斯 最 
优 ， 寻 找 一 个 易 计算 的 近似 估计 量 。 

在 n 时刻 ， 给 定 关于 式 (14.7) 和 式 (14.8) 的 非 线 性 状态 空间 模型 的 全 部 观测 序列 Y,， 推 
导出 式 (14. 84) 定 义 的 贝 叶 斯 估计 量 h, 的 近似 实现 ， 满 足 两 个 实际 要 求 : 

1. 计算 的 可 信 性 。 

2. 递归 的 可 实现 性 。 


通过 近似 的 贝 叶 斯 滤波 器 获得 的 非 线 性 滤波 问题 的 局 部 最 优 解 ， 可 能 通过 两 个 途径 中 的 一 
个 得 到 ， 取 决 于 求 近似 的 方法 : 
L 后 验 分 布 的 直接 数值 近似 。 这 一 非 线性 滤波 的 直接 方法 的 基本 原理 总 结 如 下 : 


一 般 地 ， 用 局 部 的 观点 看 ， 相 对 于 求 表示 滤波 器 系统 (RA) 模型 特征 的 非 线 性 函数 的 近 
似 ， 直 接 求 后 验 分 布 p(Xs |Y,) 的 近似 更 容易 。 


详细 地 说 ， 给 定 直到 并 包含 时刻 的 全 部 观测 值 ， 在 点 x, 一 癌 1, 附 近 求 后 验 分 布 p (xs | Ya) 
的 局 部 近似 ， 其 中 名 1, 是 状态 x, 的 滤波 估计 ; 对 局 部 的 强调 使 得 滤波 器 的 设计 在 计算 上 简单 且 
执行 速度 快 。 近 似 的 目的 是 促进 卡尔 曼 滤波 器 理论 的 随后 应 用 。 事 实 上 ， 通 过 直接 使 用 数值 方 
法 ,广泛 使 用 的 扩展 的 卡尔 曼 滤 波 器 成 为 近似 贝 叶 斯 滤波 的 例子 。 最 重要 的 是 ， 在 14.7 节 介 
绍 了 一 个 新 的 贝 叶 斯 滤波 器 ， 称 为 数值 积分 卡尔 曼 滤波 器 ， 它 比 扩展 的 卡尔 曼 滤 波 器 更 强大 。 
2. 后 验 分 布 的 间接 数值 近似 。 非 线性 滤波 的 第 二 种 方法 的 基本 原理 总 结 如 下 : 


从 全 局 的 观点 看 ， 通 过 使 用 Monte Carlo 模拟 ， 求 后 验 分 布 pCx, |Y,) 的 间接 近似 ， 使 得 非 
线性 滤波 的 贝 叶 斯 框架 在 计算 上 易 处 理 。 


将 在 14. 8 节 讨 论 的 粒子 滤波 器 ， 是 非 线性 滤波 的 第 二 种 方法 的 一 个 普及 的 例子 。 更 确切 
地 说 ， 粒 子 滤 波 器 依赖 于 一 个 称 为 逐次 Monte Carlo 方 法 的 技术 ， 该 方法 使 用 一 系列 随机 抽取 
带 关 联 权 值 的 样本 ， 来 近似 后 验 分 布 (x |Y,)。 随 着 模拟 过 程 中 使 用 的 样本 数 的 增 大 ， 后 验 
分 布 的 Monte Carlo 计算 越 来 越 精确 ， 这 是 我 们 想 要 的 目标 。 然 而 ， 样 本 数量 的 增 大 使 得 使 用 
SMC 方法 的 计算 更 加 复杂 。 换 句 话 说 ， 以 计算 上 的 代价 换取 了 滤波 精度 。 

通过 简短 的 讨论 ， 显 然 局 部 的 直接 方法 来 近似 贝 叶 斯 滤波 是 建立 在 卡尔 曼 滤波 器 理论 的 基 
础 上 的 ， 而 全 局 的 间接 方法 脱离 了 这 一 理论 ， 另 辟 蹊 径 。 一 般 来 说 ， 非 线性 滤波 的 全 局 的 间接 
方法 比 局 部 的 直接 方法 在 计算 上 要 求 更 高 。 
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14.7 ”数值 积分 卡尔 曼 滤波 器 : 基于 卡尔 曼 滤波 器 


到 目前 为 止 ， 我 们 已 经 知道 ， 当 假设 所 有 的 条 件 分 布 都 是 高 斯 分 布 时 ， 贝 叶 斯 滤波 器 是 易 
于 计算 的 。 在 这 个 特例 中 ， 贝 叶 斯 滤波 器 的 近似 值 归 结 为 计算 一 个 特殊 形式 的 多 维 积分 ， 表 
示 为 
非 线性 函数 X 高 斯 函数 
具体 地 说 ， 给 定 一 个 关于 向 量 x€ R” 的 任意 非 线 性 函数 f(x)， RAP BR, SRM PBA 
的 积分 : 


AC) 一 | fexp (—x"x)dx (14. 85) 
R —— 一 
任意 高 
T T 


这 是 定义 在 笛 卡 尔 坐 标 系 下 的 。 对 非 线性 函数 AO KRUM. RAITRE H k eK 
值 积分 法 则 (Stroud, 1971; Cools，1997) 。 数 值 积分 法 则 是 通过 迫使 数值 积分 点 服从 某 种 对 
称 的 形式 建立 起 来 的 。 这 样 ， 为 了 求 出 一 些 权 值 和 数值 积分 点 ， 而 求解 一 系列 非 线性 方程 的 复 
杂 度 显著 降低 。 在 详细 介绍 数值 积分 法 则 之 前 ， 先 引入 一 些 记 法 和 定义 : 
。 用 9 来 表示 积分 区 域 ， 如 果 满 足以 下 两 个 条 件 ， 我 们 就 说 定义 在 和 上 的 加 权 函 数 w(x) 
是 完全 对 称 的 : 
1) xEg 说 明 yE 守 ， 其 中 y 是 从 x 获 得 的 任意 一 点 ， 通 过 交换 和 改变 x 坐 标的 记号 
得 到 。 
2) ADE wx) = wy). 
。 在 完全 对 称 的 区 域 中 ， 我 们 称 点 是 一 个 发 生 器 ， 如 果 惠 王 Cay suset su, 0,0,0) E 
RY, Bp aja 0, X i= 1,2,7,1). 
。 我 们 用 记号 [ui ,ws，… ,uw,] 来 表示 整个 点 集 ， 可 以 通过 交换 和 改变 发 生 器 u 的 记号 的 一 
切 方 式 得 到 。 为 了 简洁 ， 我 们 在 记 数 中 近 制 (n 一 7) 个 零 结 点 。 比 如 [1 二 R? 表示 以 下 


点 集 : 
GEGE) 
。 我 们 用 记号 [ui ,ws ,… ,uj; 来 表示 发 生 器 u 的 第 i 个 点 。 
转换 为 球面 径 向 积分 
这 个 转换 过 程 中 的 关键 步骤 是 变量 转换 ， 即 将 Cartesian 向 量 xE RY 转换 为 由 半径 + 和 方 
向 向 量 z 定 义 的 球面 径 向 向 量 ， 概 括 为 : 


今 x=rz，2zTz 二 1]， 使 得 对 rEL[0，coo)， 有 XxX x 二 7 


然后 式 (14. 85) 的 积分 可 以 改写 为 球面 径 向 坐标 系 下 的 二 重 积分 ， 如 下 所 示 ， 


AD 一 | era exp 7) doa) dr (14. 86) 
Un 是 由 Wm 二 {2z;z7z 一 1) 定 义 的 区 域 ， 在 对 Ww HERS Hof) ERRAR. 
S(r) = | f(rz) do(z) (14. 87) 
式 (14. 87) 的 积分 是 根据 球面 法 则 计算 的 。 已 经 计算 出 S(r) ， 我 们 发 现 对 半径 的 积分 
h = [Serr exp(~ rdr (14. 88) 


可 以 通过 运用 高 斯 求 积 计 算得 出 。 计 算出 h， 式 (14. 85) 的 计算 就 完成 了 。 这 两 种 法 则 将 在 下 
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文中 依次 介绍 。 
球面 法 则 
首先 来 看 一 个 具有 如 下 形式 的 三 阶 球面 法 则 
| f(z) do(z) ~ wul (14. 89) 
式 G14.89) 的 法 则 需要 发 生 器 [四 ] 中 总 共 2M 个 数值 积分 点 ， 这 些 数值 积分 点 位 于 一 个 M 维 的 


球体 和 它 的 轴线 的 交集 里 。 为 了 确定 未 知 的 参数 上 和 也 ， 由 于 是 完全 对 称 发 生 器 ， 考 虑 单项 
REG) =1 M f= RERET. AE 


f(z) =1; 2Mw = | do(z) = Au (14. 90) 
Uy 
(2) =z; Qu? = | zido@ 一 ou C14. 91) 
其 中 M 是 向 量 x 的 维 数 ， 单 位 球体 的 表面 积 定 义 为 : 
An = ZV 
M T(M/2) 


其 中 
TM) = [vue exp(— x) dz 
AS BR. ARENA An, BARL 90) 和 式 (14. 91) 解 出 w 和 w 得 到 
w= Y v=) 


#2 th] 2 
对 于 径 血 法 则 来 说 ， 我 们 打算 使 用 高 斯 求 积 ， 它 被 认为 是 一 维 空间 中 就 算 积分 的 最 有 效 的 
数值 方法 。 一 个 m 点 高 斯 求 积 精确 到 2M 一 1) 次 多 项 式 ， 如 下 : 

| f(D wx) dr Xyu f(x) (14. 92) 


其 中 w(z) 表 示 一 个 加 权 函 数 (Press F, 1988). x, Mw, 分 别 是 待 确定 的 正 交 点 和 关联 权 值 。 
比较 式 (14. 88) 和 式 (14. 92) 的 积分 ， 得 出 加 权 函 数 为 war expl ar), RAKE [0， 
co) 。 因 此 用 =r 做 最 后 的 变量 替换 ， 得 到 想 要 的 半径 积 


F FD exp(— x) dz = | FU) exp(— 1) dt (14. 93) 
0 0 


其 中 7(2) 一 AQ) 。 式 (14. 93) 等 号 右边 的 积分 ， 现 在 的 形式 是 著名 的 广义 高 斯 拉 盖 尔 公 式 
(Stroud, 1966; Press and Teukolsky, 1990). 

一 阶 的 高 斯 拉 盖 尔 法 则 对 (2) 一 1，t 是 精确 的 。 相 应 地 ， 法 则 对 FC 1, 2? 是 精确 的 ; 
对 奇数 次 次 多 项 式 ， 它 不 是 精确 的 ， 例 如 对 f(z) 二 x+，zx? 。 幸 运 的 是 ， 当 径 向 法 则 与 球面 法 则 
结合 之 后 计算 式 (14. 85) 的 积分 ， 由 此 得 到 的 球面 径 向 法 则 消去 了 所 有 的 奇数 次 多 项 式 。 得 到 
这 个 好 的 结果 是 由 于 对 称 性 的 优点 ， 使 得 球面 法 则 消去 了 任意 奇数 次 多 项 式 ， 见 式 (14. 86). 
因此 ， 计 算式 (14. 85) 的 球面 径 向 法 则 对 所 有 一 次 多 项 式 是 精确 的 。 根 据 这 个 论证 ， 球 面 径 向 
法 则 对 所 有 xE R* 中 的 三 次 多 项 式 是 精确 的 ， 考 虑 一 阶 广义 高 斯 拉 盖 尔 法 则 ， 它 使 用 单一 点 
和 单一 权 值 。 因 此 可 以 写成 


J f(r)r™ exp(— 2°) dx œ wi f(x) 
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其 中 
w = 1y(™) 和 = vM 


球面 径 向 法 则 


在 最 后 一 节 里 ,我 们 阐述 两 个 有 用 的 结论 ， 它 们 被 用 于 结合 球面 和 径 向 法 则 和 对 高 斯 加 权 
积分 ， 扩 展 球面 径 向 法 则 。 各 自 的 结果 表达 为 以 下 的 两 个 定理 (Arasaratnam and Haykin, 
2009): 


定理 1 用 mr 点 高 斯 求 积 法 则 数值 计算 半径 积分 
| fOr exp Adr= Faf) 
用 ms 点 球面 法 则 数值 计算 球状 积分 : T 
h f(rs)do(s) = Xe f(rs,) 
然后 ， 一 个 (m, Xm, ) 点 的 球面 径 向 数值 积分 法 则 通过 双 求 和 近似 


| .rcoexpC 一 x™x)dx ~ 5 Siab, ECs) 
j=l i=l 


定理 2 将 两 个 加 权 函 数 表 示 为 w(x) =exp(—x'x) f w OSNA pE), HP, THE 
的 向 量 X， 项 NGCXIL, 瑟 ) 表 示 一 个 均值 为 下 方差 失 阵 为 吾 的 高 斯 分 布 。 然 后 ， 对 于 每 个 平方 根 
EE ER LV SD, A 


| „EOD wz Cx) dx = vV 25x + p) w (x) dx 
R 


1 
Fal ut & 
Xt F = BERT AE LA, om, = 1 Alm, =2M, FAH, RN Rie BL 2M 个 数值 积分 
点 。 而 且 ， 这 个 法 则 对 以 下 被 积 函数 是 精确 的 ， 该 被 积 函数 能 写作 不 超过 三 次 多 项 式 和 所 有 奇 
数 次 多 项 式 的 线性 组 合 的 形式 。 调 用 定理 1 和 定理 2， 我 们 现在 可 以 扩展 三 阶 球面 径 向 法 则 进 
行 标准 高 斯 加 权 积 分 的 数值 计算 。 


hy (2) = | „ECO Nxs0,Ddx ~ X) wf) (14. 94) 
R i=l 


& = Z0] Aw, = Li = 1,2, ,m = 2M 


实际 上 ，& 是 M 维 向 量 x 的 数值 积分 点 的 表示 。 
数值 积分 卡尔 曼 滤波 器 的 推导 过 程 

式 (14. 94) 是 数值 积分 法 则 ， 我 们 寻找 式 (14. 85) 的 积分 的 数值 近似 。 实 际 上 ， 数 值 积分 法 
则 是 计算 非 线性 滤波 的 贝 叶 斯 框架 中 包含 的 所 有 积分 的 核心 。 对 扩展 的 卡尔 曼 滤 波 器 ， 我 们 假 
设 动态 噪声 o, MWERA v, 是 联合 服从 高 斯 分 布 的 。 这 个 假设 可 用 以 下 内 容 证 明 : 

1. 从 数学 的 角度 来 看 ， 高 斯 进程 是 简单 的 ， 数 学 上 是 容易 解决 的 。 
2. 在 很 多 现实 问题 中 出 现 的 噪声 过 程 ， 可 以 建 模 为 高 斯 过 程 ， 根 据 概 率 理 论 的 中 心 极限 
定理 。 

在 高 斯 假设 条 件 下 ， 我 们 现在 可 以 通过 以 下 的 数值 积分 法 则 来 近似 贝 叶 斯 滤波 器 : 

1. 时 间 更 新 。 假 设 先 验 分 布 pOu |Y- O 是 用 一 个 高 斯 分 布 来 近似 ， 该 高 斯 分 布 的 均值 
为 &-:| *-:， 协 方差 矩阵 等 于 滤波 误差 协 方差 矩阵 P,-:|,-:。 然后， 对 贝 叶 斯 佑 计量 使 用 公式 ， 
我 们 可 以 将 状态 的 预测 估计 表示 为 : 





其 中 
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全 一 ELx, | Yi 一 | acx,1) N (Xm; s miimi oP) dX (14. 95) 
非 线 性 状态 高 斯 分 布 
转换 函数 


这 里 我 们 运用 了 式 (14.7) 系 统 模型 的 知识 ， 以 及 动态 噪声 @,-1 与 观测 序列 Y,-: 无 关 的 事实 。 
类 似 地 ， 我 们 获得 预测 一 错误 协 方差 矩阵 


Pa 一 [waa xe) N Omi ;il o Praise ) dX 1 Kaien Kiet + Qui, (14.96) 


2 测量 更 新 。 式 (14. 95) 是 时 间 更 新 的 一 个 近似 公式 。 下 面 找寻 一 个 测量 更 新 的 公式 。 以 
序列 Y,-1 为 条 件 ， 状 态 x, 和 测量 值 y, 的 联合 分 布 也 是 服从 高 斯 分 布 的 ， 表 示 为 : 


Xn Kab Pai Pray snin- 
n= (| | “ee | (14. 97) 
a ae 


Ya amis Ponema Pyne 
联合 变量 联合 均值 联合 协 方差 矩阵 
其 中 , 免 1:-! 定 义 于 公式 (14.95) 中 ， 给 定 序列 Yai Lo ERWE y 的 预测 估计 量 ， 表 
示 为 














Fari = fa b(x,) N (Xn Xap Pani )dx,, (14. 98) 
非 线性 高 斯 分 布 
测量 函数 
新 息 协 方差 矩阵 定义 为 ， 
Py nie = | M b(x, ) b? (x,) N Xn; Rama Pomi ) AX, 一 Yn el Fim + Q.., (14. 99) 
R v rr 一 一 
非 线性 测量 高 斯 分 布 估计 值 9 R 
ERINA 与 自身 的 外 积 协 方差 矩阵 
最 后 ， 给 出 状态 x 和 测量 值 y, 的 互 协 方差 阵 矩 阵 
Paii = Plami = f Co MO Raa Pai ds 一 Sates ies 14, 100) 
R v —nw 
x, 5b(x,) 高 斯 分 布 fi Ht ER, 
的 外 积 HS pa 的 外 积 


式 (14.95)、 式 (14. 96) 、 式 (14. 98) 到 式 (14. 100) ， 这 五 个 积分 公式 针对 着 贝 叶 斯 滤波 器 近 
似 的 不 同方 面 。 然 而 ， 这 些 公式 都 不 相同 ， 它 们 的 被 积 函 数 有 一 个 共同 形式 ， 非 线性 函数 和 
相应 的 已 知 均值 、 协 方差 矩阵 的 高 斯 函数 的 乘积 。 所 以 ， 这 五 个 积分 使 用 数值 积分 法 提供 
近似 。 

最 重要 的 是 ， 状 态 的 滤波 估计 的 递归 计算 是 建立 在 线性 卡尔 曼 滤 波 器 理论 上 的 ， 遵 循 以 下 
几 点 : 

。 卡尔 曼 增益 按 以 下 公式 计算 


G, 一 = P,,, alr Py, njn-1 (14. 101) 
。 收 到 新 的 观测 值 y, 的 基础 上 ， 状 态 x, 的 滤波 估计 预测 值 按 预 测 -修正 公式 计算 
Kain = Raker Gy On — Var) (14. 102) 
一 一 — nn a 


Ee Met AS 新 息 过 程 
。 相应 地 ， 滤 波 估 计 误 差 的 协 方差 矩阵 按 下 式 计 算 
Ppa = Pat 一 Gp Pyara GT (14. 103) 
分 别 注意 以 下 公式 的 一 致 性 : 新 的 非 线性 滤波 器 的 式 (14. 101) 、 式 (14. 102) 、 式 (14. 103) AK 
尔 曼 滤器 的 式 (14. 31) 、 式 (14, 30) 、 先 前 未 编号 的 式 (14. 38) 。 在 任何 情况 下 ， 后 验 分 布 最 终 
能 按 如 下 定义 的 高 斯 分 布 来 计算 : 
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px, | Yn) = NOx, 5 an s Pan) (14. 104) 
AP, HERL MFR14. 102) 中 ， 协 方差 矩阵 P, 1, 由 式 (14. 103) 定 义 。 

因此 , 已 经 开始 在 时 间 更 新 阶段 计算 先 验 分 布 p(x,-1 |Y,-1)， 通 过 测量 更 新 阶段 ， 递 归 循 
环 按 步 又 进行 ， 最 后 计算 后 验 分 布 p(x, |Y,); 接 下 来 循环 按 需 要 重复 进行 。 

显而易见 ， 这 个 新 的 非 线 性 滤波 器 称 为 数值 积分 卡尔 曼 滤 波 器 (Arasaratnam and 
Haykin，2009) 。 这 个 新 的 非 线性 滤波 器 的 重要 性 质 总 结 如 下 : 

1. BURA ER BURRS (CKF) 是 无 导数 在 线 逐 次 状态 估计 。 

2. 在 函数 数量 的 评估 中 ， 通 过 使 用 数值 积分 法 则 计算 的 气量 积分 的 近似 值 都 是 线性 的 。 
并 且 ， 在 数值 积分 法 则 中 的 点 和 相关 权 值 是 独立 于 式 (14. 84) 的 非 线 性 函数 FOO A; 因此 ， 它 
们 能 够 被 非 在 线 的 计算 和 存储 以 提高 滤波 过 程 的 速度 。 

3. 与 EKF 一 起 ，CKF 的 计算 复杂 度 用 flops REE, UM 增长 ， 其 中 M 是 状态 空间 的 
维 数 。 

4. 从 原理 的 角度 来 看 ，CKF 建立 在 卡尔 曼 滤 波 器 理论 上 ， 为 了 达到 和 提高 数字 的 精确 
E, 使 用 了 平方 根 滤波 的 方法 ; 这 个 合成 的 滤波 器 称 为 平方 根 数值 积分 卡尔 受 滤波 器 
(SCKF) ， 它 传播 了 预测 和 后 验 误 差 协 方差 矩阵 的 平方 根 (Arasaratnam and Haykin, 2009), 

5. 最 重要 的 是 ， 在 先 验 分 布 中 的 二 阶 矩 是 在 后 验 分 布 中 完全 保留 的 。 由 于 我 们 知道 的 关 
于 状态 的 信息 实际 上 是 包含 在 观测 值 中 的 ， 我 们 可 以 说 CKF 完全 保留 了 关于 状态 的 二 阶 信 息 ， 
该 信息 包含 在 观测 序列 中 ， 因 此 EKF 在 精确 度 和 可 信和 度 上 有 很 好 的 效果 。 

6. CKF 是 最 新 的 对 贝 叶 斯 滤波 器 的 直接 近似 ， 它 最 大 程度 上 缓解 了 维 数 灾难 的 问题 ， 但 
是 ， 仅 靠 CKF 不 能 解决 这 个 问题 。 

在 这 些 性 质 的 结合 下 ， 数 值 积分 卡尔 曼 滤 波 器 成 为 周期 性 多 层 感 知 器 的 有 监督 训练 的 受 关 
注 的 方法 ， 这 将 在 第 15 章 中 讨论 。 在 第 15 章 中， 我 们 也 提出 了 一 个 计算 机 实验 ， 它 清楚 地 证 
明了 这 个 新 的 强大 工具 的 实用 性 。 


14.8 粒子 滤波 器 


在 这 一 节 ， 我 们 将 通过 贝 叶 斯 滤波 器 的 间接 的 全 局 近似 ， 继 续 讨 论 非 线性 滤波 问题 。 非 线 
性 滤波 的 第 二 种 方法 包含 的 基础 理论 (其 中 的 大 部 分 ， 并 非 全 部 )， 来 源 于 Monte Carlo 统计 
算法 (Robert and Casella，2004)。 粒子 滤波 器 是 这 一 新 类 型 的 非 线性 滤波 器 中 的 最 好 的 例子 。 
最 重要 的 是 ， 粒 子 滤 波 器 已 经 成 为 一 个 解决 非 线性 滤波 问题 的 重要 工具 ， 因 为 它 能 应 用 于 很 多 
领域 ， 例 如 信号 处 理 、 雷 达 和 声音 媒体 的 目标 跟踪 、 计 算 机 视觉 、 神 经 计算 ， 这 里 只 列 出 一 
部 分 。 

在 详细 阐述 粒子 滤波 器 之 前 ， 先 引入 一 些 新 记 法 和 定义 。 令 X, 表示 所 有 的 目标 状态 序 
列 (xt. SRM, Y, 表示 所 有 观测 序列 {y;}*-,。 相 应 地 ， 我 们 可 以 表示 给 定 观 测序 
BY, 的 条 件 下 ， 所 有 状态 X, 的 联合 后 验 分 布 为 p(X, |Y,)。 由 于 X, 表示 的 状态 序列 对 观测 
者 是 隐藏 的 ， 为 计算 式 (14. 84) 的 积分 ， 获 得 直接 从 后 验 分 布 pC(X, |Y,) 中 的 随机 取样 通常 是 
不 可 行 的 。 为 了 绕 开 这 个 实际 困难 ， 我 们 从 另外 一 个 分 布 中 取样 ， 这 一 分 布 称 为 工具 Cn- 
strumental) 分 布 ， 或 者 重要 分 布 。 今 后 ， 这 个 新 的 分 布 用 9(X,|Y,) 来 表示 。 顺 其 自然 地 ， 
为 了 使 重要 分 布 能 够 有 效 地 代替 后 验 分 布 ，g(X, |Y,) 必 须 有 一 个 足够 广 的 支 集 ， 以 完全 包 
括 p(X |Y,) 的 支 集 。 
Monte Carlo 积分 

按照 所 谓 的 重要 性 抽样 方法 ,我 们 从 重要 性 分 布 aX, |Y,) 中 随机 地 抽取 六 个 统计 独立 且 
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同 分 布 的 (idd) 样本 构成 一 个 集合 。 令 n 时 刻 随机 取出 的 样本 集 记 为 x 号 ,i 一 1,2,…,N 。 从 
零 时 刻 开始 直到 nA, 一 步 一 步 地 ， 在 状态 空间 中 根据 重要 性 分 布 aX, |Y,)，N 个 样本 追 
踪 自 己 的 “轨迹 ”。 它 们 的 轨迹 记 为 X2 ， 其 中 i 一 1,2,…,N, 称 为 粒子 ， 因 此 命名 为 “粒子 滤 
波 器 ”。 
下 面 ， 我 们 定义 重要 性 函数 为 
_ p(X, |Y,) 


r(X, |Y.) = 
q(X, | Y.) 
然后 ， 利 用 式 (14. 84) 的 定义 ， 我 们 可 以 改写 贝 叶 斯 佑 计量 的 公式 


hy = [ace (2 e)a, [Y dx, = [Ar YD, | YY dx (14. 106) 


其 中 ， 我 们 使 用 了 h(CX;) 作 为 任意 函数 ， 为 了 使 它 和 粒子 滤波 的 术语 保持 一 致 性 。 
在 式 (14. 106) 的 贝 叶 斯 估计 量 上 运用 重要 性 取样 方法 ， 我 们 得 到 相应 的 Monte Carlo (fi 
计量 





(14. 105) 





AN) ~ N D BERK?) (14. 107) 
HY, o 是 重要 性 权重 ， 定 义 为 
w? = rX? |Y) = nee Ra, 
为 了 确保 Monte Carlo iit Bh, (NAR EMA pCX® | Y,) 的 正规 化 常数 ， 这 可 能 导致 很 
多 麻烦 或 者 无 法 计算 ， 所 以 通常 情况 下 我 们 需要 标准 化 重要 性 权 值 ， 使 得 它们 的 和 为 单位 一 。 
最 后 ， 我 们 改写 式 (14. 107) 估 计量 的 公式 





1 一 TI,2 N C14. 108) 





N 
Aa ON) = >) wh XS) (14. 109) 
i=l 
其 中 
_ gw 
w? = -5 x ? i= 1,2,°°,N (14, 110) 
Sa” 


对 有 限 数量 的 粒子 ，N 个 ， 估 计量 所 CN) 是 “有 偏 的 ”。 但 是 ， 在 渐进 的 意义 上 ， 我 们 发 
现 了 下 面 的 关系 (Doucet 等 ，2001) : 
lim A, CN) —> hi (14.111) 
为 了 改进 重要 性 取样 方法 ， 我 们 可 以 按照 它 进行 重 采样 的 第 二 阶段 ， 像 在 Rubin (1998) 
的 sampling-importance-resampling (SIR) FAPI. Æ SIR 方法 的 第 一 个 阶段 ， EP nK 
循环 用 通常 的 方法 ， 随 机 地 从 重要 性 分 布 gCX, |Y,) 取 样 ， 得 到 一 个 iid 样本 集合 {X*)} 全 |， 接 
着 根据 式 (14. 110) 计 算出 相应 的 标准 化 重要 性 权 值 集 合 {w2 IL. SIR 方法 的 第 二 个 阶段 ， 
第 二 个 样本 集合 表示 为 {六 ) 六 ;,， 从 中 间 和 集合 {X) 久 1 中 提取 得 到 ， 考 虑 到 标准 化 重要 性 权 值 
w 的 相关 强度 ; 实际 上 ， 每 一 个 权重 可 以 看 做 一 个 相关 样本 出 现 的 概率 。 取 样 的 第 二 个 阶段 
背后 的 基本 原理 可 以 归纳 为 : 


重 取 样 的 第 二 阶段 取出 的 样本 2 ， 它 的 标准 化 重要 性 权 值 w 四 很 大 ， 很 有 可 能 服从 联合 
后 验 分 布 p(X, |Y,); 比 起 标准 化 重要 性 权 值 小 的 祥 本 ， 应 该 以 更 大 的 概率 选择 这 样 的 样本 。 


实现 SIR 的 方式 有 几 种 。Cappé (2005) 介绍 了 一 种 方法 ， 在 每 一 次 循环 中 我 们 进行 以 
下 操作 : 
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L 采样 。 随 机 地 从 重要 性 分 布 ga(X|Y) 中 抽取 一 个 ON PRX? OLA id 集合 。 
2. 加 权 。 利 用 式 (14. 110)， 计 算 相 关 的 标准 化 权 值 {fw OL WBA. 








目标 (后 验 ) 分 布 


重要 性 (工具 ) 分 布 


: : 

重 采样 的 粒子 ' © 
© 3 © 

图 14.5 对 样本 数 的 样本 进行 重 采样 过 程 的 说 明 ， 重 采样 6 个 样本 


3. ERA. 

G) 给 定 中 间 样 本 KY , X? , xX”, 条件 独立 地 抽取 含 工 个 离散 随机 变量 I,II? ye, 
IP) 的 集合 ， 从 集合 全,2,…,N} REE Cw pw wo) 取 值 ， 如 以 下 的 例子 所 示 : 

PUY =f) =w?, fF =1,2,5N 
MTP, ,I Be, HH, ALN. 

GD BX =X”, Hhi=1,2,--,L, 

AIP, TO, oe, IO } 被 认为 是 多 项 式 实验 过 程 。 因 此 ， 根 据 SIR 方法 被 描述 为 一 种 
多 项 式 类 型 ， 可 以 从 图 14.5 中 的 例子 工 王 六 一 6 中 看 到 。 

在 本 节 的 后 续 内 容 里 ， 我 们 将 会 讨论 重 采样 在 克服 重要 性 权 值 的 退化 问题 上 的 作用 。 然 
而 ， 使 用 重 采样 引 人 了 一 些 它 自身 的 实际 限制 : 

1. 重 采样 限制 了 粒子 滤波 器 的 并 行 执行 的 范围 ， 这 是 由 这 一 过 程 的 本 质 决定 的 。 

2. 在 重 采 样 期 间 ， 与 大 的 重要 性 权 值 相关 的 粒子 多 次 被 选择 ， 这 导致 了 粒子 多 样 性 的 损 
失 ; 这 一 现象 称 为 采样 枯竭 或 者 权 值 退化 。 例 如 ， 当 空间 状态 模型 的 动态 噪声 相对 小 时 ， 在 几 
次 循环 后 ， 所 有 的 粒子 可 能 会 最 终 月 淡 断 裂 成 一 个 粒子 ， 这 显然 是 我 们 不 希望 看 到 的 。 

3. 始终 不 变 的 是 ， 重 采样 增加 了 Monte Carlo 估计 量 的 方差 。 
顺序 重要 性 采样 

在 式 (14. 109) 中 提 及 的 Monte Carlo 估计 量 拟 CN) ， 由 重要 性 采样 方法 得 到 ， 对 任意 函数 
h(X,) 的 贝 叶 斯 估计 量 记 的 近似 ， 提 供 了 一 个 计算 上 可 行 的 解 ， 因 此 ， 满 足 我 们 非 线性 滤波 器 
目标 的 第 一 个 实际 要 求 ， 这 点 在 前 面 给 出 了 详细 的 说 明 。 然 而 ， 仍 然 需要 满足 第 二 个 要 求 ， 
Monte Carlo 估计 量 的 递归 实现 。 

不 幸 地 ， 重 要 人 性 采样 方法 的 简单 形式 不 满足 递归 计算 的 需要 。 这 是 因为 在 我 们 对 后 验 分 布 
PCY, |Y,) 做 估计 之 前 ， 需 要 完整 的 观测 序列 ， 用 Y, 表示。 特别 地 ， 每 得 到 一 个 新 的 观测 值 
y,， 需 要 对 整个 状态 序列 X, 计算 重要 性 权 值 { 立 2 } 六  。 为 了 满足 这 个 需求 ， 重 要 性 采样 过 程 的 
计算 复杂 度 将 会 随 着 时 间 ”继续 增加 ， 这 显然 是 不 切实 际 的 。 为 了 解决 这 个 计算 上 的 困难 ， 我 
们 采样 重要 性 采样 的 一 个 顺序 实现 ， 通 常 称 为 序 贯 重要 性 采样 GIS), 

为 了 描述 SIS 程序 的 基本 原理 ， 首 先 我 们 用 式 (14. 80) 的 时 间 更 新 和 式 (14. 81) 的 测量 更 新 
去 消除 预测 分 布 ， 这 里 我 们 用 pX LY). p Xa LY PARE p C(x YA) A 
p(X,_1 |Y,-1) ,以 便 和 粒子 滤波 器 的 术语 一 致 。 因 此 我 们 得 到 


第 14 章 动态 系统 状态 估计 的 贝 叶 斯 滤波 .487 


p(X, |Y.) 一 | 7b Xn |x Lyn |x.) PX | Yni )dx， 





更 新 后 验 (14. 112) 
= | 去 ex xm) Ly x) PO gex, LY, )dx,-1 
~ 一 
kt PABA TERAH 


在 等 式 的 第 一 行 中 ， 我 们 将 似 然 函 数 y | x ) 移 到 了 积分 内 ， 在 马尔 可 夫 假 设 下 ， 它 独立 于 先 
前 的 状态 值 x,-;; 在 等 式 的 第 二 行 中 ， 引 人 了 重要 性 分 布 gC(X, |Y,)。 在 重要 性 采样 的 框架 下 ， 
多 个 项 的 乘积 





FP Me | Uy, |) PCR Ee? 
是 在 ?2 时刻 关 于 重要 性 分 布 的 重要 性 权 值 。 特 别 地 ， 由 于 2Z 是 一 个 常数 ， 可 以 写 为 
w? l o POE Rees Ye (14. 113) 
这 里 cc 表示 成 比例 。 
假设 现在 按 以 下 的 方式 选择 重要 性 分 布 ， 在 式 (14. 113) 中 的 分 母 中 ， 因 式 分 解 
q(X? |Y = gX | YA) gx | XP...) (14.114) 


对 所 有 的 i 成 立 。 然 后 ， 来 自重 要 性 分 布 gCX |Y,) 的 更 新 后 的 样品 序列 ， 简 单 地 通过 以 下 方 
式 获得 ， 得 到 一 个 新 的 观测 值 y, ， 用 新 重要 性 分 布 9Cx2 | XL, y ) 的 样本 序列 ,来 增 大 从 重要 
性 分 布 gC(X2e2 |Y,_1) 中 提取 的 旧 样 本 序列 。 因 此 ， 式 (14.114) 可 以 看 做 序 贯 重要 性 采样 的 
“把 戏 ”。 在 任何 情况 下 ， 在 式 (14. 113) 中 使 用 式 (14. 114) 的 分 解 ， 我 们 得 到 


w? oc p(X”, | Ye) x POX | Xe LY, | x,” ) 
qx, 5 1¥.a) ~ gx? | Xe y) 


一 个 实际 而 有 趣 的 情况 是 ， 在 每 个 时 间 步 又 中 ， 只 有 一 个 后 验 分 布 p(X, |Y,) 的 滤波 估计 。 
在 这 种 情况 下 ， 我 们 可 以 设 

g(x? | XP yn) = q(x [xP yD 对 于 所 有 的 i 
和 p(x? |X%,)。 在 这 种 情况 下 ， 我 们 只 需要 保存 当前 状态 x?， 因 此 丢弃 旧 的 轨迹 XO, ALE 
WE Y,_1 的 相关 历史 记录 。 相 应 地 ， 更 新 重要 性 权 值 的 式 (14. 115) 化 简 为 


(14. 115) 








(i) 
w? o wi x ROG he, DI APRAN i (14.116) 
AAR RY) 
eeu Pn 增 量 修正 因子 
nE a 


其 中 ，cc 表 示 成 比例 。 式 (14. 116) 是 在 时 间 上 递归 的 估计 标准 化 重要 性 权 值 的 一 个 必要 公 
式 ; 它 满足 非 线性 滤波 目标 的 第 二 个 要 求 ， 粒 子 滤波 器 的 递归 实现 。 特 别 地 ，SIS 程序 在 每 
一 个 时 间 步 又 中 ， 每 当 获 得 一 个 新 的 观测 值 就 传播 重要 性 权 值 。 式 (14. 116) 等 号 右边 的 乘 
法 因子 ， 人 允许 “ 提 的 ”重要 性 权 值 在 时 间 步 又 ”中 ， 当 获得 新 的 观测 值 y, 时 被 更 新 ， 这 个 
因子 称 为 增 量 修正 因子 。 

显然 ， 序 贯 重要 性 采样 应 用 于 后 验 分 布 p(x |Y,) 的 Monte Carlo 估计 同样 有 好 的 效果 ; 根 
据 式 (14. 112) 和 式 (14. 116)， 可 以 写作 


N 
p(x, LY.) ~ > yw? x, — x?) (14. 117) 
i=] 


这 里 6(x, 一 x 中) 是 迪 拉 克 德 耳 塔 函数 ， 它 是 位 于 %, 一 x 对 i 二 1,2,…,N， 并 且 对 滤波 情况 ， 
根据 式 (14. 116) 更 新 权 值 。 随 着 粒子 的 数量 N， 趋 近 于 无 穷 ， 式 (14. 117) 的 估计 值 接近 于 真实 
的 后 验 分 布 p(x, | ¥.) 。 


488 :第 14 章 动态 系统 状态 估计 的 贝 叶 斯 滤波 


权 值 退化 问题 

重要 性 分 布 ga(X, |Y,) 扮 演 着 粒子 滤波 器 设计 方面 的 关键 角色 。 由 于 它 与 后 验 分 布 
P(X |Y,) 总 是 不 同 ， 我 们 发 现 式 (14. 108) 中 定义 的 重要 性 权 值 的 方差 ， 能 够 仅仅 随 着 时 间 的 
增加 而 增 大 。 这 个 现象 ， 在 使 用 序 贵重 要 性 采样 时 遇 到 过 ， 从 而 导致 了 之 前 提 及 的 权重 值 退化 
问题 。 

直觉 上 的 权 值 退化 问题 的 解释 ， 在 时 间 步 又 n 中 ， 考 虚 一 个 具有 标准 化 重要 性 权 值 w ?的 
粒子 Xe2 。 根 据 定义 ,一 个 小 的 权 值 意味 着 粒子 w ?已 经 从 重要 性 分 布 a(X, |Y,) 中 取样 得 到 ， 
以 一 个 合适 的 距离 远离 后 验 分 布 p(X, |Y,) 的 主体 ， 因此 意味 着 这 个 特别 粒子 的 分 布 对 式 
(14. 109) 里 的 Monte Carlo 估计 量 h, CN) 不 起 作用 。 当 退化 问题 变 得 严重 时 ， 有 大 量 的 不 起 作 
用 的 粒子 ， 结 果 导 臻 Monte Carlo 估计 量 记 (CN) 在 统计 上 和 计算 上 一 样 是 没有 效率 。 在 这 种 情 
况 下 ， 少 数量 的 粒子 承担 起 计算 的 责任 。 然 而 更 严重 的 是 ， 随 着 时 间 步 又 的 增加 ， 我 们 发 现 
在 粒子 总 体 的 多 样 性 减少 ， 并 且 估 计量 ,CN) 的 方差 增 大 ， 构 成 了 一 个 不 好 的 情况 。 

为 了 警惕 序 贯 重要 性 采样 中 的 权 值 退化 问题 ， 我 们 显然 需要 一 个 退化 度量 。 有 了 这 个 度量 
的 概念 ，Liu(1996) 定义 了 一 个 有 效 的 样本 大 小 为 


N 
Na = [wey T (14. 118) 


其 中 w? 是 式 (14. 110) 中 的 标准 化 重要 性 权 值 。 应 用 这 个 简单 的 公式 时 ， 需 要 考虑 两 个 极端 的 
情况 : 

1. 当 N 权 值 的 分 布 都 是 均衡 的 ， 对 所 有 的 i，w* 二 1/N， 这 时 Ne 一 人 N。 

2. 除了 一 个 权 值 是 单位 元 的 ， 所 有 的 N 个 权 值 都 为 零 ， 在 这 种 情况 下 ，Nes 一 1。 

继续 遵循 以 上 原则 ， 因 此 ，Nusr 的 取 值 范围 是 [1，N]j。 特 别 地 ， 一 个 小 的 Nua 值 意味 着 权 
值 退化 的 一 个 严重 情况 ， 反 之 亦 然 。 

因此 关键 问题 为 : 


意识 到 在 序 贯 重要 性 采样 中 的 权 值 退化 问题 是 规则 而 不 是 例外 ， 我 们 怎么 能 解决 它 呢 ? 


这 个 基础 问题 的 回答 包含 在 本 节 之 前 讨论 的 重 采样 的 使 用 中 。 例 如 ， 粒 子 滤波 器 算法 的 算 
法 的 公式 化 可 以 包含 一 个 规定 的 阐 值 ， 记 为 Ns:。 当 有 效 的 样品 大 小 Na RFE Nu 时 ，SIS 
程序 暂时 的 停止 并 且 运 用 重 采样 步骤 ， 而 后 SIS 程序 再 继续 执行 ， 这 个 过 程 将 重复 进行 直到 滤 
波 器 被 终止 。 
采样 重要 性 重 采 样 粒子 滤波 器 

第 一 次 粒子 滤波 器 的 粒子 实现 是 Gordon、Salmond and Smith (1993) 记录 的 ， 当 时 命名 
为 “bootstrap 滤波 器 ”。 在 Gordon, Salmond, Smith 的 论文 发 表 之 前 ， 序 贯 重要 性 采样 中 的 
权 值 退化 的 严重 问题 ， 既 没有 清楚 的 定义 也 没有 令 人 满意 的 解决 方法 。 在 1993 年 的 论文 中 ， 
权 值 退化 问题 通过 一 个 复原 过 程 被 解决 ， 依 靠 删 去 相关 权 值 小 的 粒子 ， 权 值 大 的 粒子 不 仅 保 
留 下 来 而 且 被 复制 ， 这 点 在 很 大 程度 上 与 传统 的 非 序 贯 采样 过 程 相同 。 的 确 ， 由 于 这 个 原 
因 ， 现 在 bootstrap 滤波 器 一 般 被 认为 是 采样 重要 性 重 采样 (SIR) 滤波 器 。 这 有 段 简 要 的 历史 
记录 中 的 重要 的 一 点 是 ，SIR 滤波 器 是 第 一 个 成 功 使 用 Monte Carlo 模拟 进行 非 线性 滤波 的 
证 明 。 

SIR 滤波 器 的 实现 简单 ， 因 此 经 常用 于 解决 非 线性 滤波 问题 。 这 一 滤波 器 有 两 方面 与 众 不 
同 的 特色 : 

1. 将 先 验 分 布 视 为 重要 性 分 布 。 检 查 为 式 (14. 116) 更 新 权 值 的 递归 公式 ， 我 们 看 到 重要 
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性 分 布 的 定义 是 靠 如 何 选 择 等 式 右边 的 分 母 q(x? 1x2i,y) 来 确定 的 。 在 SIR 滤波 器 中 ， 这 
个 选择 是 依据 下 面 的 公式 得 出 
qx [Xe Ys) = pOX, |X) (14. 119) 
其 中 ， 在 的 等 式 的 右边 ，p (x, |x,-1) 是 先 验 分 布 或 者 状态 转移 分 布 。 实 际 上 ，SIR 滤波 器 盲目 
地 从 先 验 分 布 p(x, |x,_1) 中 取样 ， 完 全 忽略 了 包含 在 观测 值 y, 中 的 关于 状态 x, 的 信息 。 式 
(14. 119) 由 马尔 可 夫 假 设 产生 。 
2. 采样 重要 性 重 采样 。 在 SIR 滤波 器 中 ， 重 采样 被 运用 在 非 线 性 滤波 器 过 程 的 每 一 个 时 
间 步 又 ， 因 此， 由 式 (14. 116) 我 们 得 到 . 
me =1/N, 4ix=1,2..N (14. 120) 
因为 1/N 是 一 个 常数 ， 它 可 以 被 忽略 。 因 此 ， 需 要 在 式 (14. 116) 的 增 量 修正 因子 随时 间 的 累 
积 就 不 再 需要 了 。 
因此 ， 在 式 (14. 116) 中 运用 式 (14. 119) 和 式 (14. 120) 得 到 一 个 更 简单 的 公式 
we coolly, |xO), 当 i=1,2,°,N (14. 121) 
这 里 Ly, |x?) LMA y, 的 似 然 函数 ， 给 定 粒子 i 的 状态 XP. GR. BREMEN 
计算 ， 用 到 式 (14. 121) 的 概率 ，SIR 滤波 算法 的 每 一 个 重 采样 步骤 之 后 执行 的 。 表 14. 5 总 结 
了 SIR 滤波 器 。 


表 14.5 粒子 滤波 的 SIR 算法 总 结 


记 法 

粒子 用 i = 1,2,…,NN 来 表示 ， 其 中 N 是 粒子 的 总 数 。 

初始 化 

给 定 状态 分 布 pC(x) 和 x 的 初始 值 am， 随机 取样 

xP ~ p(x) 

其 中 记号 “xz 一 加 E “2 是 分 布 p 的 一 个 观察 值 ” 的 简写 设置 初始 权 值 


Hp i= 1,2,",N 。 


对 每 个 时 间 步 又 二 1,2,3,… ,按照 下 标 i 一 1,2,…,N, 做 如 下 操作 : 
1. 重要 性 分 布 定义 为 
a(x, | x621 yn) = CX | x21) 
其 中 假设 已 知 先 验 分 布 p(x | x21), RRR 
xO ~ p(y | wh21) 
. 计算 重要 性 权 值 
BY = Lye | x) 
其 中 也 假设 似 然 函 数 L(y | x3) 已 知 ， 因 此 ， 计 算 标 准 化 权 信 
( 一 we 
n N 
oy a) 
ue 
3. 重 采样 ， 一 个 含 N 个 离散 随机 变量 的 集合 (ID ,2 p, I), 在 相关 集合 {1,2,…,N} 中 依照 以 下 概率 取 值 ， 
PAO =) =w? 
Wik, RA 
XO =x 
并 且 


ww -4 


4. 继续 计算 直到 滤波 完成 。 


NN 


N 
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从 以 上 的 讨论 中 ， 显 然 在 SIR 滤波 器 公式 化 中 的 假设 是 轻 度 的 ， 总 结 如 下 : 

1. 式 (14. 1) 的 过 程 模型 中 的 非 线 性 函数 aC, ARAC 2) 的 测量 模型 中 的 非 线 性 函 
数 b,(* ,.)， 两 者 必须 都 是 已 知 的 。 

2. ACMA p(x |x, 1) 需要 式 (14. 1) 的 动态 噪声 o 的 统计 学 知识 ; 从 动态 噪声 o, 
的 基础 分 布 中 抽取 样本 (粒子 )， 也 必须 是 允许 的 。 

3. 包含 在 式 (14.121) 中 的 似 然 函数 区 (Cy, |x)， 必 须 是 已 知 的 ， 反 过 来 ， 这 意味 着 在 
式 (14. 2) 中 的 测量 噪声 v 的 统计 信息 是 可 得 到 的 。 

另外 在 SIR 滤波 器 (就 此 而 言 ， 对 任何 粒子 滤波 器 〉 的 设计 中 需要 提出 的 另 一 个 问题 是 粒 
子 个 数 N 的 合适 值 的 选择 。 一 方面 ，N 应 该 足够 的 大 以 满足 式 (14. 111) 渐 进 的 结果 。 另 一 方 
面 ， 由 于 在 滤波 的 每 一 个 时 间 步 骤 粒 子 同 时 行动 ，N 应 该 足够 的 小 以 便 将 计算 负担 控制 在 可 处 
理 的 水 平 上 。( 这 里 ， 我 们 假设 在 重要 性 采样 和 重 采样 操作 之 后 ， 粒 子 的 个 数 保 持 着 相同 的 值 
N) 因此 N 值 的 选择 必须 在 两 个 冲突 情况 下 做 一 个 “ 折 中 ”， 这 个 问题 只 有 在 一 个 问题 解决 
的 基础 上 得 到 解决 。 : 
重要 人 性 分 布 的 最 佳 选择 

先 验 分 布 p(x, |x,_1) 为 选择 重要 性 分 布 提供 了 一 个 有 吸引 力 的 方法 ， 正 如 在 SIR 滤波 器 
的 情况 下 。 然 而 ， 一 个 粒子 滤波 器 设计 的 选择 ， 可 能 导致 在 不 利 条 件 下 的 不 良 的 表现 。 例 
如 ， 如 果 输 入 数据 被 异常 值 所 于 扰 的 情况 下 恶化 ， 我 们 拥有 “无 信息 ”的 观测 值 ， 并 且 如 果 
测量 噪声 的 方差 小 ， 那 么 我 们 就 有 “非常 翔实 ”的 观测 值 。 这 时 在 给 定 观 测 值 的 情况 下 ， 有 
一 个 潜在 的 错 配 存在 于 状态 的 预测 先 验 分 布 和 后 验 分 布 之 间 。 为 了 用 “最 佳 ”形式 缓和 这 种 
错 配 ， 粒 子 应 该 在 重要 性 分 布 之 下 ， 选 择 移动 到 状态 空间 ， 这 被 定义 为 “Doucet $, 2000; 
Cappé 等 ，2007) 

px, |X LCY |x) 

[pC | es 20, [0 dx 


这 个 重要 性 分 布 的 特殊 的 选择 是 最 优 的 ， 在 这 个 意义 上 权 值 的 条 件 方差 为 零 时 ， 给 定 了 粒子 先 


(14. 122) 





q(x, [x IYn) opt 一 


前 的 历史 记录 。 
用 式 (14. 122) 替 换 式 (1. 116) 的 SIS 公式 中 ， 得 到 权 值 更 新 的 公式 
w? oc wf? | pC | x, x21) O, Ly) dy (14. 123) 
更 新 的 OW 先 验 "UR 
on meee 
其 中 ， 我 们 看 到 增 量 修正 因子 〈 如 积分 项 ) ， 仅 仅 取 决 于 被 提议 的 粒子 x21 的 “过 去 ”的 位 置 
和 当前 的 观测 值 y, 。 


式 (14.123) 的 最 优 公式 和 式 (14. 121) 的 SIR 公式 的 一 个 重要 不 同 点 是 : 在 SIR 滤波 器 中 ， 
在 状态 空间 中 允许 粒子 盲目 的 移动 ， 然 而 在 式 (14. 122) 的 最 佳 重要 性 分 布下 ， 粒 子 允 许 在 后 验 
分 布 有 大 量 的 高 概率 的 位 置 上 聚 类 ， 这 个 显然 是 我 们 希望 看 到 的 情况 。 

然而 ， 在 式 (14. 122) 中 定义 的 最 优 重要 性 分 布 计算 法 可 能 并 不 是 直接 能 进行 的 ， 除 了 在 一 
些 特 殊 的 情况 下 。 比 如 ， 在 一 类 状态 空间 模型 中 ， 条 件 分 布 p(x |x2?1,y,) 是 高 斯 分 布 ， 选 择 
最 优 重要 性 分 布 去 设计 一 个 粒子 滤波 器 的 确 是 可 行 的 《Doucet 等 ，2000)。 


14.9 ”计算 机 实验 : 扩展 的 卡尔 曼 滤 波 器 和 粒子 滤波 器 对 比 评价 
比较 评价 的 实验 设置 是 建立 在 非 线性 高 斯 动态 系统 的 状态 空间 模型 之 上 的 ， 该 模型 用 以 下 
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两 个 等 式 描述 : 
系统 〈 状 态 ) 模型 : 


Za = 0. 52,41 十 


测量 〈 观 测 值 ) 模型 : 


25m 
1 十 xy 





+ 8cos(1.2(n—1)) +a, 


_ l 
Yn ggi” T Vn 


在 这 个 系统 中 ， 动 态 噪 声 w, 服从 高 斯 分 布 N(0，1)， 测 量 噪声 w 也 服从 高 斯 分 布 NC0，1) 。 状 
态 的 真实 最 初 值 为 ze 一 0. 1。 

粒子 滤波 器 的 SIR 版 本 应 用 于 实验 中 。 以 下 的 实验 条 件 应 用 在 EKF 和 SIR 滤波 器 中 ， 

模仿 状态 轨迹 : 50 个 时 间 步 长 

独立 的 Monte Carlo 运行 的 数量 : 100 

滤波 估计 的 最 初 值 : foo 王 NMCze，2) 

SIR 粒子 滤波 器 的 说 明 如 下 : 

。 粒子 的 数量 N 的 值 是 100。 

。 在 滤波 过 程 的 每 个 时 间 步 又 中 运用 重 采样 ， 随 后 进行 重要 性 权 值 的 标准 化 。 

。 先 验 (如 状态 转换 ) 分 布 应 用 于 重要 性 分 布 中 。 

EFK 滤波 器 和 SIR 粒子 滤波 器 的 实验 结果 分 别 在 图 14.6 和 图 14. 7 中 给 出 。 在 每 个 图 
中 ， 实 线 曲 线 表 示 真 实 的 状态 ， 标 记 为 星 号 的 点 表示 运行 50 次 的 平均 结果 。 在 图 14. 6 和 
图 14.7， 较 高 的 和 较 低 的 用 虚线 连 成 的 曲线 分 别 表示 用 EKF 和 PF 生成 的 状态 估计 的 置信 
区 间 。 

















5 “10 i is 30 35 30 : 35 40 45 50 
时 间 步 长 = 
图 14.6 扩展 的 卡尔 曼 滤 波 器 EKP 的 总 体 平均 状态 的 估计 多， 绘制 成 曲线 ， 用 连续 的 * 点 


标记 。 较 高 的 和 较 低 的 虚线 连 成 的 曲线 〈 在 估计 值 的 附近 )， 表 示 由 扩展 的 卡尔 曼 滤 
波 器 生成 的 状态 估计 的 置信 区 间 。 连 续 的 曲线 是 状态 随 着 时 间 ?的 真实 变化 过 程 


通过 检查 这 两 张 图 ， 揭 示 了 如 下 的 观察 结果 : 
。 对 于 EKF， 状 态 滤波 估计 的 平均 轨迹 明显 的 偏离 了 真实 的 轨迹 。 
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图 14.7 SIR 粒子 滤波 器 的 总 体 平均 状态 的 估计 叉 ， 绘 制 成 曲线 ， 用 连续 的 * 点 标记 。 较 高 的 
和 较 低 的 虚线 连 成 的 曲线 〈 在 估计 值 的 附近 ) ， 表 示 由 粒子 滤波 器 PO 生成 的 状态 
估计 的 置信 区 间 。 连 续 的 曲线 是 状态 随 着 时 间 =” 的 真实 变化 过 程 
。 另 一 方面 ， 从 SIR 粒子 滤波 器 计算 出 来 的 对 应 的 平均 轨迹 ， 与 真实 的 轨迹 非常 接近 。 
另 一 个 实验 的 结果 是 关于 粒子 滤波 器 的 ， 在 图 14. 8 中 ， 状 态 的 滤波 估计 的 均 方 误差 的 平 
方 根 (RMSE), MA SIR 粒子 滤波 器 中 使 用 的 粒子 数量 的 变化 曲线 被 绘制 。 我 们 看 到 RMSE 
最 初 是 很 高 的 ， 随 着 粒子 数量 的 增 大 而 逐渐 减少 ， 同 时 粒子 的 数量 在 增加 。 粒 子 数量 超过 N= 
100 时 ，RMSE 没有 显著 的 变化 ; 在 实验 中 为 SIR 滤波 器 选择 N=100 个 粒子 ， 因 此 得 到 了 
TEA. 








RMSE 











| L | il 
0 100 200 300 400 500 
粒子 数量 





图 14.8 绘制 了 由 SIR 粒子 滤波 器 生成 的 均 方 误差 的 平方 根 (RMSE) 随 粒 子 数量 的 变化 的 
变化 情况 ;点 。 是 通过 实验 计算 得 到 的 
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14.10 ”大脑 功 能 建 模 中 的 卡尔 曼 滤 波 


到 现在 为 止 本 章 的 讨论 集中 于 卡尔 曼 滤 波 器 的 理论 ， 随 后 是 贝 叶 斯 滤波 器 和 它 的 近似 形 
式 。 这 样 做 ， 我们 着 重 强调 了 这 些 滤波 器 以 自己 的 方式 进行 逐次 状态 估计 的 实际 功效 。 在 这 一 
节 中 ， 我 们 将 综述 类 卡尔 曼 滤波 器 在 不 同 的 大 脑 功能 建 模 中 的 应 用 (Chen 等 ，2007) 。 
视觉 识别 的 动态 模型 

视觉 的 皮层 包括 一 个 层 状 结构 层次 OM V1 到 V5) 和 大 量 的 连接 ， 这 些 连接 处 于 皮层 内 
以 及 皮层 和 视觉 丘脑 之 间 〈 如 外 侧 膝 状 体 核 ， 或 者 LGN); 对 于 视觉 系统 中 的 这 一 部 分 的 一 个 
简要 概括 ， 请 参见 第 12 章 的 参考 文献 。 特 别 地 ， 视 觉 皮层 被 赋予 了 两 个 重要 解剖 学 的 属性 . 
(Chen 等 ，2007)，; 

。 反馈 的 大 量 使 用 。 视 觉 皮 层 的 任意 两 个 位 置 的 连接 是 相互 的 ， 因 此 调节 向 前 以 及 反馈 

信号 的 传输 。 

。 分 层 多 尺度 结构 。 视 觉 皮层 范围 内 的 下 区 细胞 的 感受 域 ， 只 跨越 视觉 区 域 的 一 小 部 分 ， 
RZ, 高 区 细胞 的 感受 域 的 大 小 增 大 ， 直 到 它们 跨越 了 几乎 整个 视觉 区 域 。 正 是 这 个 
约束 网 络 使 得 它 可 以 在 高 维 的 数据 空间 ， 为 全 连接 的 视觉 皮层 ， 用 数量 减少 了 的 自由 
参数 进行 预测 ， 因 此 这 是 一 个 计算 上 有 效率 的 方法 。 

从 1997 年 到 2003 年 期 间 的 一 系列 的 研究 Rao 和 他 的 合作 者 开发 了 这 两 个 性 质 ， 来 构建 

一 个 视觉 识别 的 动态 模型 ， 以 及 了 解 到 这 一 构想 根本 上 是 一 个 非 线 性 的 动态 过 程 。 视 觉 识别 的 
Rao-Ballard 模型 是 一 个 分 层 组 织 的 神经 网 络 ， 每 一 个 中 级 分 层 接收 到 两 种 信息 : 来 自 于 前 一 
层 的 自 下 而 上 信息 水 平 以 及 来 自 于 较 高 层 的 自 上 而 下 的 信息 。 为 了 它 的 实现 ， 这 个 模型 用 一 个 
多 尺度 估计 算法 ， 可 能 被 看 做 一 个 外 扩展 的 卡尔 曼 滤波 器 里 的 分 层 形式 。 特 别 地 ， 通 过 一 个 动 
态 环境 下 的 视觉 实验 ，EKF 被 同时 用 作 学 习 模 型 的 前 馈 、 反 馈 和 预测 参数 。 由 此 产生 的 适应 
过 程 运行 在 两 个 不 同 的 时 间 尺 度 上 : 

。 快速 动态 状态 估计 过 程 允 许 这 个 动态 模型 去 预计 传人 的 刺激 。 

。 (BR Hebb 学 习 过 程 ， 为 突 触 权重 模型 提供 了 调整 。 

特别 地 ，Rao-Ballard 模型 可 以 看 做 一 个 EKF 神经 网 络 的 实现 ， 在 各 个 层 之 间 使 用 自 顶 向 
下 的 前 馈 ， 并 且 能 够 对 静态 图 像 和 随时 间 变 化 的 图 像 序 列 ， 训 练 视觉 感受 野 。 这 个 模型 非常 有 
吸引 力 ， 这 是 由 于 它 简单 性 和 灵活 性 ， 但 是 功能 很 强大 。 首 先 ， 它 允许 视觉 感知 的 贝 叶 斯 解释 
(Knill and Richards, 1995; Lee and Mumford, 2003), 
声音 流 分 离 的 动态 模型 

众所周知 ， 在 计算 神经 科学 的 文献 中 ， 听 党 感知 与 视觉 感知 有 着 许多 相同 的 特征 〈Sham- 
ma，2001)。 特 别 地 ，Elhilali (2004) 提出 了 计算 听觉 场景 分 析 框 架 下 的 声音 流 分 离 问题 
(CASA) 。 在 其 中 描述 的 计算 模型 中 ， 隐 藏 向 量 包 含 了 一 种 声音 流 的 区 间 (抽象 ) 表示 法 ;` 观 
测 值 由 一 个 特征 向 量 的 集合 或 者 从 声音 的 混合 体 中 得 到 的 声学 线索 〈 如 音 高 和 开始 )。 由 于 声 
音 流 的 暂时 的 连续 性 是 一 个 重要 的 特性 ， 它 能 够 用 作 于 构建 系统 〈 状 态 ) 模型 。 测 量 模型 描述 
了 含有 皮层 模型 参数 的 皮层 滤波 过 程 。 这 个 动态 声音 流 分 离 的 基础 组 成 部 分 包括 以 下 两 个 方 
面 ， 第 一 ， 在 每 个 时 间 点 ， 推 断 声 音 模式 的 分 布 为 流 的 一 个 集合 ， 第 二 ， 给 定 新 的 观测 值 ， 佑 
计 每 个 聚 类 的 状态 。 第 二 个 估计 问题 已 经 用 卡尔 曼 滤波 器 的 操作 解决 ， 第 一 个 聚 类 问题 已 经 用 
类 Hebb 竞争 性 学 习 的 操作 解决 。 

卡尔 曼 滤波 器 的 动态 本 质 不 仅 对 于 声音 流 分 离 是 很 重要 的 ， 而 且 对 于 声音 定位 和 跟踪 也 同 
样 重要 。 所 有 的 这 些 都 被 视 为 有 效 听觉 的 关键 成 分 (Haykin and Chen, 2006). 
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小 脑 和 运动 学 习 的 动态 模型 

小 脑 在 运动 的 控制 和 协调 中 起 到 了 非常 重要 的 作用 ， 通 常 进行 得 非常 平稳 并 且 几 乎 毫 不 费 
力 。 在 文献 中 ， 已 经 提 到 小 脑 扮演 着 动态 状态 估计 的 控制 者 或 者 神经 模拟 的 角色 。 支 持 动态 状 
态 估计 假设 的 关键 点 包含 在 以 下 的 叙述 中 ， 它 的 有 效 性 已 经 被 数 十 年 的 自动 跟踪 和 指导 系统 设 
计 的 研究 所 证 实 : 

任何 一 个 生物 或 者 人 造 的 系统 ， 需 要 预测 或 控制 一 个 多 元 动态 系统 的 随机 轨迹 ， 可 以 通过 
使 用 或 引用 的 卡尔 曼 滤 波 的 本 质 在 这 种 或 其 他 方式 下 才能 有 效 。 

建立 在 这 个 关键 点 之 上 ，Paulin (1997) 发 表 了 一 些 关于 支持 小 脑 是 一 个 动态 状态 估计 值 
的 神经 模拟 的 假设 的 证 据 。 特 别 是 Paulin 证 据 的 有 一 行 表 述 了 关于 前 庭 眼 反射 (VOR) ， 它 是 
眼球 运动 系统 的 一 部 分 。VOR 的 作用 是 去 维持 视 党 图像 的 稳定 性 〈 如 视网膜 ) 通过 与 脑袋 旋 
转 相反 的 眼睛 的 转动 ， 这 点 在 之 前 的 前 言 部 分 已 经 讨论 过 的 那样 。 这 个 功能 调节 包括 小 脑 皮 层 
和 前 庭 的 核子 的 神经 网 络 。 从 14. 3 节 的 讨论 中 ， 我 们 知道 卡尔 曼 滤 波 器 是 一 个 最 佳 的 线性 系 
统 ， 且 伴 通 过 曲 声 测量 ， 预 测 一 个 动态 系统 状态 轨迹 的 方差 最 小 ; 给 出 一 个 对 于 潜在 的 系统 动 
态 的 假设 模型 ， 它 通过 估计 特别 的 状态 轨迹 做 到 上 述 这 些 。 这 个 策略 的 结果 是 ， 当 动态 系统 源 
自 于 假定 模型 ， 卡 尔 曼 滤 波 器 产生 一 种 预测 的 估计 错误 ， 这 个 错误 可 能 归 因 于 滤波 器 “相信 ? 
假定 模型 而 不 是 真实 的 感觉 数据 。 根 据 Paulin (1997)， 此 类 估计 错误 在 VOR 行为 中 被 观 
测 到 。 
总 结 归 纳 

总 之 ， 卡 尔 曼 滤波 器 的 预测 修正 的 属性 使 它 成 为 一 个 对 计算 神经 建 模 中 的 预测 编码 问题 的 
潜在 有 用 的 候选 方法 ， 这 就 是 在 动态 环境 下 自主 的 大 脑 功能 的 一 个 基础 属性 。 同 样 需要 注意 到 
的 重要 问题 是 ， 在 之 前 提 及 的 例子 中 ， 假 设 神 经 系统 〈 如 小 脑 或 者 新 大 脑 皮 层 ) BERBER 
器 的 神经 模拟 ， 它 并 不 意味 着 在 物质 层面 上 ， 神 经 系统 类 似 于 卡尔 曼 滤波 器 、 一 般 来 说 ， 生 物 
系统 的 确 表现 出 一 些 状态 估计 的 形式 ， 并 且 相 关 的 神经 算法 可 能 含有 卡尔 曼 滤波 器 的 一 般 的 
“特征 ”。 此 外 ， 一 些 貌 似 合理 的 状态 估计 形式 广泛 分 布 在 中 心神 经 系统 的 其 他 部 分 。 


14. 11 小 结 和 讨论 


本 章 讨 论 的 主题 是 ， 给 定 一 个 依赖 于 状态 的 观测 值 序列 ， 估 计 动 态 系统 中 未 知 的 “隐藏 
的 ) 状态 。 解 决 这 个 问题 的 基础 在 于 状态 空间 模型 ， 由 两 个 公式 组 成 : 一 个 等 式 建 模 了 状态 随 
着 时 间 的 演变 过 程 ， 并 且 含有 来 源 于 这 个 变化 的 动态 噪声 ， 另 外 一 个 等 式 建 模 了 状态 观测 值 的 
噪声 版 本 。 假 设 状态 空间 模型 是 服从 马尔 可 夫 的 。 

KAR SDE DE a 

当 动 态 系统 是 线性 的 ， 并 且 服 从 高 斯 分 布 ， 状 态 的 最 优 估计 值 是 著名 的 卡尔 曼 滤 波 器 。 当 
动态 系统 是 非 线性 的 ， 并 且 服 从 高 斯 分 布 ， 我 们 可 使 用 状态 空间 模型 下 的 一 阶 泰勒 展开 近似 得 
到 的 扩展 的 卡尔 党 滤 波 器 。 假 如 是 轻 度 的 非 线性 ， 这 个 对 于 非 线性 滤波 的 近似 方法 得 到 可 以 接 
受 的 结果 。 

D WHE SOF RE Be ae 

从 理论 上 说 ， 贝 叶 斯 滤波 器 是 最 为 一 般 的 非 线性 滤波 器 ， 卡 尔 曼 滤 波 器 则 被 视 为 它 的 一 个 
特例 。 然 而 ， 在 实际 应 用 中 实现 贝 叶 斯 滤波 器 ， 必 须 采 用 近似 。 这 里 的 近似 可 以 是 以 下 两 种 方 
式 中 的 一 种 ， 

1. 后 验 分 布 的 直接 数值 近似 。 第 一 个 方法 背后 的 思想 总 结 如 下 : 
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通过 线性 卡尔 受 渡 波 器 原理 用 数值 法 使 非 线 性 动态 系统 状态 的 估计 值 近似 变 得 容易 。 


使 用 该 方法 进行 非 线性 滤波 的 例子 包括 扩展 的 卡尔 曼 滤 波 器 ， 无 气味 的 卡尔 曼 滤 波 器 
(Julier 等 ，2000) ， 正 交 卡 尔 曼 滤波 器 (lto and Xing, 2000; Arasaratnam 等 ，2007) 和 数值 
积分 卡尔 曼 滤 波 器 CArasaranam and Haykin，2009) 。 在 这 些 非 线性 滤波 器 当中 ， 扩 展 的 卡尔 
曼 滤 波 器 是 最 简单 的 ， 数 值 积 分 卡尔 曼 滤 波 器 是 最 强大 的 。 简 单 地 说 ， 是 用 计算 复杂 度 的 增加 
换取 可 靠 度 的 增加 。 

2、 后 验 分 布 的 间接 数值 近似 。 非 线性 滤波 的 第 二 个 方法 中 ， 最 罕 出 并 广泛 使 用 的 例子 是 
粒子 滤波 器 。 由 于 贝 叶 斯 滤波 器 的 后 验 分 布 很 难 接近 ， 我 们 凭借 随机 取样 的 方法 ， 从 必须 支持 
后 验 分 布 的 重要 性 ， 或 者 工具 的 分 布 里 抽取 样本 。 粒 子 滤波 器 的 递归 实现 通过 序 贯 重要 性 采样 
(SIS) 过程 来 完成 的 。 为 了 避免 滤波 器 的 进入 权 值 退化 的 情况 ， 常 用 的 方法 是 采用 带 重 采样 的 
重要 性 采样 ， 依 靠 这 一 方法 相对 较 弱 的 正规 化 的 权 值 被 删除 ， 剩 余 的 正规 化 权 值 根据 它们 出 现 
的 可 能 性 被 复制 。 

一 方面 ， 尽 管 有 卡尔 曼 滤波 器 和 它 的 变 体 以 及 它 的 近似 扩展 ， 而 另 一 方面 ， 粒 子 滤波 器 在 
它们 的 分 析 推 论 和 实际 实现 上 是 根本 不 同 的 ， 虽 然 大 家 都 分 享 同一 个 重要 的 性 质 ， 预测 -修正 
性 质 。 
计算 上 的 考虑 

G 卡尔 曼 滤波 器 。 无 论 何 时 ， 当 我 们 开发 一 个 滤波 器 的 算法 ， 通 常 要 检查 算法 的 收敛 
性 。 特 别 是 ， 算 法 的 使 用 者 想 知 道 能 使 算法 收敛 的 条 件 ， 以 及 如 何 确定 收敛 问题 。 例 如 ， 众 所 
周知 卡尔 曼 滤 波 器 会 有 收敛 现象 ， 以 下 两 个 因素 是 产生 这 一 现象 的 原因 : 

。 状态 空间 模型 间 〈 卡 尔 曼 滤波 器 的 起 源 以 此 为 基础 ) 的 模型 错 配 ， 实 际 的 动态 环境 的 

底层 物理 学 负责 观测 值 的 产生 ; 

。 卡尔 曼 滤 波 器 的 实际 实现 使 用 的 不 够 精确 的 算术 精度 。 

发 散 现象 的 根本 可 能 涉及 和 矩阵 P, ,违反 了 协 方差 矩阵 的 正定 的 性 质 。 平 方 根 滤波 器 提供 了 
缓和 发 散 现象 的 方法 。 

Gi) 粒子 滤波 器 。 接 下 来 开始 考虑 粒子 滤波 器 的 计算 部 分 。 给 定 粒子 滤波 的 Monte Carlo 
根 ， 这 个 观察 结果 其 实 并 不 令 人 感到 奇怪 。 在 任何 情况 下 ， 我 们 总 结 了 一 些 在 文献 中 的 重要 
结论 : 

1. 对 于 指定 的 粒子 的 数量 N， 式 (14. 84) 的 积分 的 Monte Carlo 估计 引发 的 误差 是 
OCN-) 级 的 ， 它 与 状态 向 量 的 维 数 无 关 (Ristic 等 ，2004) 。 这 个 结果 建立 在 两 个 假设 之 上 : 

。 在 式 (14. 84) 积 分 中 的 后 验 分 布 p(x, |Y,) 是 明确 已 知 的 。 

。 粒子 (如 样本 〉 是 统计 独立 的 。 

然而 ， 粒 子 滤波 中 的 这 两 个 假设 都 违反 了 : 精确 知道 p(x |Y,) 是 不 可 能 的 ， 并 且 在 粒子 
滤波 器 中 使 用 重 采样 ， 粒 子 轨迹 变 得 有 实际 依赖 性 。 

2. Crisan and Doucet (2002) 提出 的 ， 粒子 滤波 器 产生 的 估计 的 方差 的 上 界 表 示 为 : 
OCN-:2 ) 乘 以 一 个 常量 比例 系数 c 

不 幸 的 是 ， 这 个 结果 导致 了 错误 的 结论 ， 粒子 滤波 器 产生 的 估计 误差 与 状态 向 量 的 维 数 无 
关 ， 并 因此 免 于 维 数 灾难 。Daum and Huang (2003) 提出 ， 争 论 乘 数 因子 不 是 一 个 常量 ; 而 
是 随 着 时 间 n 按 指数 级 增长 ， 因 此 记 为 cv 。 它 非常 依赖 状态 向 量 的 维 数 ， 这 意味 着 粒子 滤波 器 
确实 经 历 了 维 数 灾难 。 

3. 在 Bengtesson 等 (2008) 的 独立 性 研究 中 ,证 明了 用 粒子 滤波 器 的 “brute-force-only” 
实现 来 描述 高 维 后 验 分 布 将 失败 ， 这 归 因 于 维 数 灾难 。 应 对 这 个 现象 的 推荐 的 方法 是 在 粒子 滤 
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波 之 前 先 得 到 一 些 维 数 降 低 的 形式 ;正如 在 第 10 章 中 指出 的 ， 高 维 数据 经 常 是 稀少 的 ， 因 此 
可 以 降低 维 数 。 


注释 和 参考 文献 


1. 相关 的 动态 和 测量 噪声 。 在 一 个 线性 高 斯 状态 空间 模型 中 ， 动 态 噪 声 o, 和 测量 噪声 v, 中 的 相关 性 有 时 候 
是 允许 的 。 这 个 条 件 被 用 在 经 济 学 中 。 特 别 地 ， 我 们 现在 有 
7 [Gn 当 & = nht 
Ele,vi | = 0 当 & 尖 7 时 
HC, 是 已 知 的 和 矩阵。 根据 这 个 等 式 ， 这 两 个 噪声 过 程 o 和 w ,是 同时 相关 的 ， 但 是 它们 在 非 零 延迟 的 情 
况 下 保持 着 不 相关 性 。 在 这 种 情况 下 ， 卡 尔 曼 滤波 器 的 公式 化 必须 进行 修改 。 对 这 个 问题 的 第 一 次 讨论 是 
在 Jazwinski (1970); 也 可 以 参见 Harvey (1989)。 

2. 信息 滤波 算法 。 协 方差 滤波 算法 是 实现 卡尔 曼 滤波 器 的 一 种 方法 。 在 另 一 种 称 为 信息 滤波 器 算法 的 形式 中 ， 
卡尔 曼 滤波 器 通过 传播 协 方差 矩阵 P; ,的 北 来 实现 ;， 这 个 道 与 Fisher 的 信息 矩阵 是 相关 的 ， 人 允许 滤波 器 在 
信息 理论 形式 的 解释 。 关 于 信息 滤波 算法 的 更 多 细节 ， 参 见 第 10 章 Haykin (2002) 。 

3. 记 法 。 为 了 式 (14. 6) 的 彻底 正确 并 且 与 本 书 前 面 的 记 法 已 知 ， 我 们 应 该 用 ORED, RRAN ER 
X， 它 的 样本 值 用 x 表 示 。 我 们 已 经 在 式 (14. 6) 中 使 用 了 记号 p(x)， 并 且 在 本 章 中 其 他 相似 情况 有 以 下 两 
个 原因 : 

。 为 了 简化 表示 ， 因 为 本 章 有 大 量 的 随机 过 程 的 概率 表示 。 
。 最 重要 的 是 ， 避 人 免 在 本 章 后 面部 分 的 混乱 ， 在 后 面 记号 XX 用 于 表示 状态 的 序列 。 

4. 员 叶 斯 估计 。 售 计 理 论 中 的 一 个 经 典 的 问题 是 随机 参数 员 时 斯 估计。 对 这 个 问题 有 不 同 的 管 案 , MBM oT 
斯 侍 计 中 的 损失 函数 是 如 何 被 公式 化 的 。 一 个 特别 而 有 趣 的 贝 叶 斯 估计 器 类 型 是 所 谓 的 条 件 平 均 估 计 。 在 
这 种 情况 下 ， 我 们 做 两 件 事 : 

D 从 第 一 个 原理 获得 条 件 均值 估计 量 的 公式 。 

(2) 表明 这 个 估计 量 与 最 小 均 方 误差 估计 量 是 一 样 的 。 

对 于 这 些 结果 ， 考 虑 随机 参数 z。 给 定 了 一 个 依赖 于 z 的 观测 值 y， 需 要 做 的 是 估计 z。 令 主 (y) 表 示 参 数 x 
的 一 个 估计 值 ， 符 号 Cy) 强 调 了 估计 是 观测 值 y 的 一 个 函数 这 一 事实 。 令 尺 表 示 损 失 函 数 ， 依 赖 于 和 它 
的 估计 值 。 然 后 ， 根 据 贝 叶 斯 估计 理论 ， 我 们 可 以 定义 贝 叶 斯 风险 为 : 


R= HCD] = S f Ctr $6) pC yardy (A) 
这 里 plz, Wir Ay 的 联合 概率 密度 函数 。 对 于 一 个 具体 的 损失 函数 CC(z， Hy), AHAB 
定义 为 最 小 化 危险 R 的 估计 。 


一 个 有 特别 引起 大 家 兴趣 的 损失 函数 (这 是 很 大 程度 上 这 本 书 涵盖 内 容 的 精神 所 在 ) 是 均 方 误差 ， 具 
体 化 为 估计 误差 的 平方 ， 它 本 身 定义 为 实际 参数 值 r 和 估计 值 z(y) 的 不 同 点 ， 即 


E 一 工 一 他 (y) 
相应 地 ， 我 们 写成 
Cir Bly) = Cla — By) 
或 者 ， 更 简单 地 
Clie) = e? 

因此 我 们 把 公式 (A) 重 新 改写 成 

Ra = [LF @— 20» pr ydrdy (B) 
其 中 风险 R。 的 下 标 指 出 使 用 均 方 误差 作为 它 的 基础 。 从 概率 理论 ， 我 们 得 到 

play) = plz|y) p(y) (C) 


其 中 p(z|y) BAEM zc My HRP RRE ERM, POOR yh GAR 概率 密度 函数 。 因 此 ， 将 公式 
(C) 代 人 到 公式 (B) 里 ， 我 们 得 到 


Ros 一 三 [六 (2— 4())* plz |y)dz |pCy)dy D) 
现在 我 们 意识 到 里 面 的 积分 《在 方 括号 里 ) 和 公式 (D) 的 p(y) 都 是 非 负 的 。 因 此 我 们 可 能 简单 的 通过 最 小 
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化 里 面 的 积分 从 而 最 小 化 风险 R。。 令 这 样 获得 的 估计 值 用 ,Cy) 表 示 。 我 们 发 现 通过 里 面 的 积分 对 Cy) 
求 导 ， 然 后 令 结果 等 于 零 。 
为 了 简化 表述 方法 ， 令 I 表示 公式 (D) 的 里 面 的 积分 。 然 后 1 对 z(y) 求 导 得 到 


ae 一 一 ?| zczly)dz+220o| palyda (E) 
公式 (E) 的 等 号 右边 的 第 二 个 积分 ， 表 示 在 概率 密度 函数 下 的 全 部 面积 ， 因 此 值 为 单位 一 。 因 此 ， 设 定 dI/ 
dz 等于零， 我 们 得 到 


Zn CY) 一 F xp(x|y)da (F) 


公式 (F) 定 义 的 解 是 唯一 的 最 小 值 。 
公式 (F) 中 定义 的 佑 计量 2 Cy) 是 自然 的 最 小 均 方 误差 估计 量 。 对 这 个 估计 量 的 另 一 种 解释 ， 我 们 认识 
到 给 定 观测 值 y»， 等 式 右 边 的 积分 仅仅 是 参数 z 的 条 件 平均 。 
天 此 得 到 结论 最 小 均 方 误差 估计 量 和 条 件 平 均 估 计量 确实 是 同一 个 。 换 句 话说， 我 们 有 
dns Cy) = ELx|y] (G) 
用 公式 (G) 替 换 2(y) 带 人 到 公式 (D) ， 我 们 发 现 里 面 的 积分 刚好 是 给 定 y 的 条 件 下 ， 参 数 z 的 条 件 方差 。 相 
应 地 ， 风 险 Rs 的 最 小 值 是 对 所 有 的 观测 值 y 这 个 条 件 方差 的 平均 值 。 
5. 基于 电位 序列 的 贝 叶 斯 滤波 器 。 在 14. 10 节 中 讨论 过 大 脑 功能 的 动态 建 模 ， 我 们 采样 一 个 传统 的 信号 处 理 
框架 ， 并 重视 对 卡尔 曼 滤 波 理论 的 作用 。 
事实 上 ， 皮 层 神经 网 络 从 感官 传人 收 到 电位 序列 观察 一 个 不 确定 的 动态 环境 ， 而 不 是 直接 从 环境 观察 。 
电位 序列 提供 了 在 大 脑 中 神经 的 主要 交流 通道 它们 用 峰 电 位 到 达 的 时 间 的 形式 来 表示 (Koch, 1999; 
Rieke 4, 1997). Bobrowski 等 〈2007) 考虑 了 动力 环境 隐藏 状态 概率 分 布 的 最 佳 估 计 问 题 ， 以 电位 序列 
的 形式 给 出 噪声 观测 值 。 最 重要 的 是 ， 它 们 描述 了 一 个 线性 周期 性 的 神经 网 络 模型 ， 这 个 模型 可 以 切实 的 
实现 实时 的 贝 叶 斯 滤波 。 这 个 输入 可 能 是 多 模 态 的 ， 由 两 个 不 同 子 集 组 成 例如 ， 一 个 是 视觉 的 ， 另 一 个 
听 沉 的。 并且， 提出 了 综合 实例 来 证 明 系 统 的 操作 。 
值得 注 且 的 是 在 连续 时 间 内 的 非 线 性 滤波 ， 在 点 过 程 观测 的 基础 上 ， 第 一 次 被 Snyder (1972) HRs 
也 可 以 参见 Synder 的 1975 年 出 版 的 书 中 关于 随机 点 过 程 的 讨论 。 


习题 


卡尔 曼 滤波 器 
14.1 预测 状态 误差 向 量 被 定义 为 
Enwi 一 Xn 一 Keli 
这 里 名 1,_! 是 状态 x, 的 最 小 均 方 估计 ， 给 定 观 测 数据 序列 yyer Yie E On 和 v SPH RE A BY ASR 
和 测量 噪声 向 量 。 表 示 8i 0, My, EX, TUBA 
Eleni: 0% J =0 
和 
E[s. uv 和 一 0 
14.2 考虑 一 个 均值 为 零 的 标量 观测 值 y 的 集合 ， 变 换 成 相应 的 均值 为 零 、 方差 为 o2., 的 新 息 过 程 a 
的 集合 。 给 定数 据 集合 ， 令 状态 向 量 x 的 估计 值 表示 为 如 下 形式 


Ên = ba 
其 中 be，& 一 1，2，…， ”是 待 确定 向 量 的 集合 。 需要 选择 bi 使 得 估计 状态 误差 向 量 的 范 数 的 
开平 方 的 期 望 值 最 小 

Ein = NK — Kin 


这 表明 ， 最 小 化 得 到 结果 


Ri. = Elxip. den 
1 
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14. 3 


14.4 


14.5 


14.6 


14.7 
14.8 


14,9 


其 中 


p 一 全 
= 2 
Bak 


是 正规 化 后 的 新 息 。 这 个 结果 可 以 看 做 是 式 (14. 24) 和 式 (14. 26) HO — 
证 明 式 (14. 25) ， 这 个 式 子 说 明了 新 息 过 程 ww 和 状态 估计 误差 8;1 ,是 不 相关 的 ， 对 于 上 一 1,2,…,n 并 且 
i<in, 
在 卡尔 曼 滤波 理论 中 证 明 ， 滤 波 的 状态 估计 误差 向 量 &) ,是 均值 为 零 ， 服 从 高 斯 分 布 的 ， 并 且 是 一 阶 马 
尔 可 夫 过 程 。 
卡尔 曼 增 益 G, ， 由 式 (14. 3G. AR RS. ER, 是 在 式 (14. 22) 中 自 定 义 的 。 这 个 矩阵 
R, 是 正定 的 ， 但 是 并 不 需要 是 非 奇异 的 。 
(a) WHA R, 是 正定 的 ? 
Ch) 为 了 保证 道 矩 阵 Ri 存在 ， 你 选择 什么 样 的 先 验 分 布 作用 于 矩阵 Qoa E? 
在 许多 情况 下 ， 随 着 循环 次 数 ” 趋 于 无 穷 大 ， 预 测 误 差 协 方差 矩阵 P, 111, 收敛 到 稳定 的 状态 值 P。 证 明 
极限 值 了 满足 代数 Riccati 等 式 
PB’ (BPB’ + Q)’ (BP— Q,) = 0 
其 中 假设 状态 转移 矩阵 等 于 单位 阵 矩 阵 的 B、Q. Q 分 别 是 了 、Q.,。、Q.. 的 极限 值 。 
可 以 这 样 说 ， 原 始 动态 系统 的 状态 空间 模型 圣人 了 卡尔 曼 滤 波 器 的 结构 。 证 明 这 一 叙述 。 
在 卡尔 曼 滤 波 器 中 预测 修正 框架 的 检查 揭示 了 以 下 两 个 性 质 : 
(a) 预测 状态 的 六 ,和 预测 误差 协 方差 矩阵 Pi* 的 计算 仅仅 依赖 于 从 系统 CORD) 模型 众 提 取 的 
信息 。 
(b) 滤波 状态 部 1, 和 滤波 误差 协 方差 矩阵 P,j, 的 计算 仅仅 依赖 于 从 测量 模型 众 提取 的 信息 。 
证 明 卡 尔 曼 滤波 器 的 这 两 个 性 质 。 
预测 误差 协 方 差 矩阵 P,411, 和 滤波 误差 协 方差 矩阵 P,1, 不 可 以 假设 为 同一 个 值 。 这 是 为 什么 ? 


14.10 在 14.3 节 中 卡尔 曼 滤 波 器 的 引出 是 建立 在 最 小 均 方 差 估计 的 概念 上 的 。 在 这 个 问题 中 ， 我 们 研究 了 


另外 一 个 卡尔 曼 滤 波 器 的 推导 ， 以 最 大 化 后 验 概率 (MAP) 标准 为 基础 。 对 于 这 个 推导 ， 假 设 动态 噪 
Ho, 和 测量 噪声 w 都 是 均值 为 零 的 高 斯 过 程 ， 协 方差 矩阵 分 别 是 Q.。 和 Qno S plx|Y,) 表 示 x 的 
条 件 概率 分 布 ， 给 定 Y, 表示 观测 值 m ye ey, 的 集合 。x 的 MAP 估计 表示 为 hap,s， 定义 为 % 的 
特殊 值 ， 使 得 p(x, | Y,) 最 大 化 ， 或 者 等 价 为 pCxs | Y,) 的 对 数 。 这 个 评价 要 求 我 们 求解 以 下 的 条 件 








dlogp(x, | Y,) =o cA) 
OXn Xa T *MAP 
表明 
2 
3 logp (x, |Y) <o CB) 
| OX x, RMAP,n 
(a) 我 们 可 以 将 分 布 p(x, | Y, ) 表 示 为 
— px, +Y,) 
BO YD = Sey 
鉴于 联合 分 布 的 定义 ， 也 可 以 表示 为 如 下 的 形式 
一- POR Yn Ym) 
P | Ya) = pO 
因此 ， 表 明 





PCy» Yn) 

(b) 使 用 动态 噪声 m 和 测量 噪声 w 的 高 斯 特征 ， 推 导 表 达 式 p(y, |x A p(y | Y -1)。 接 着 认识 到 
p(w | 1) 可 以 作为 一 个 常数 ， 由 于 它 不 依赖 于 状态 %， 将 pC% | Y,) 公 式 化 。 

O 使 用 公式 (A) 中 Cb) 部 分 的 结果 ,根据 矩阵 求 逆 引 理 〈 在 章节 5 中 讨论 过 )， 推 导出 jnr,, HOR, 
证 明 它 和 在 14. 3 节 的 卡尔 曼 滤 波 只 的 推导 完全 一 致 。 

(d) 最 后 ， 证 明 (c) 部 分 得 到 的 MAP ART imar GES EAR CB). 


14.11 考虑 一 个 无 噪声 状态 空间 模型 描述 的 线性 动态 系统 


Xntl 一 AX, 
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和 

y = Bx, 
Hep x, BARA, ya EMME, A 是 转移 矩阵 ，B 是 测量 矩阵 。 
(a) 证 明 


Rin = AC — GB) ama + BGyY, On = Yn — BR 
其 中 G, EERE, m 表示 新 息 过 程 G, 是 如 何 定义 的 ? 
(b》 使 用 (a) 部 分 的 结果 ,证明 卡 尔 曼 滤 波 器 是 一 个 白化 滤波 器 ， 因 为 它 产生 了 一 个 对 y, 的 “ 白 的 ” 
估计 误差 。 
14.12 表 14.2 总 结 了 以 状态 的 滤波 估计 为 基础 的 卡尔 曼 滤 波 器 。 产 生 了 另外 一 个 卡尔 曼 滤波 器 的 总 结 ， 这 
一 次 使 用 了 状态 的 预测 估计 作为 基础 ， 描 述 了 卡尔 曼 滤 波 器 的 相关 的 信号 流 图 。 


平方 根 卡尔 曼 丰 波 器 
14.13 ”从 恒等式 (14. 47) 到 式 (14.49) ， 以 及 式 (14. 46) 等 号 两 边 相 应 的 相等 的 项 。 事 实 上， 需要 考虑 由 个 恒 
等 式 。 找 出 这 些 便 等 式 并 且 证 明 它 是 其 中 一 个 已 知人 恒等式 的 移 项 。 


扩展 的 卡尔 曼 滤 波 器 
14.14 从 式 (14. 64) 的 修正 系统 〈 状 态 》 模型 开始 , 证明 护 ， 它 是 一 个 已 知 的 〈 如 非 随机 的 ) 向 量 ， 由 
式 (14. 75) 定 义 。 
14.15 邻 P,,., 表 示 状 态 误差 向 量 x 一 名 1s-1 和 测量 误差 向 量 y, 一 各 -1 的 交叉 协 方差 矩阵 。 令 Pu 表示 测量 
误差 向 量 w 一 六 :的 协 方差 抢 阵 。 证 明 修 正 的 卡尔 曼 收 益 
Gr = AnG， 
可 以 用 这 两 个 协 方差 矩阵 的 形式 表示 为 
Gin = Ps. Poin 


贝 叶 斯 滤波 器 
14.16 (a) 证 明 式 (14.77) 
(b) 证 明 式 (14. 83)。 


粒子 滤波 器 
14.17 扩展 的 卡尔 曼 滤波 器 和 粒子 滤波 器 ， 在 以 下 的 意义 上 代表 了 非 线 性 滤波 器 两 个 不 同 的 例子 : 
。 扩展 的 卡尔 曼 滤 波 器 的 推导 是 基于 统计 分 布 约束 条 件 下 的 一 个 局 部 方法 。 
。 在 另 一 方面 ， 粒 子 滤波 器 的 推导 是 基于 没有 统计 约束 的 一 个 全 局 方法 。 
阐述 这 两 个 叙述 。 
14.18 图 14.5 解释 说 明了 当 样 本 的 数量 和 重 采 样 都 等 于 6 时 的 重 采 样 过 程 ; 也 就 是 说 ， 在 重 采 样 之 后 的 粒 
子 数量 与 取样 之 前 的 粒 数量 相同 。 解 释 这 张 图 是 如 何 得 到 的 。 
14.19 ”考虑 一 个 非 线 性 动态 系统 ， 它 的 状态 空间 模型 定义 如 下 
Xml 一 An (Xn) 十 On 


和 
Yn = br, (Xn) + Vn 


Et, JARE o 和 测量 噪声 w 都 是 均值 为 零 ， 白 噪声 高 斯 过 程 、 协 方差 矩阵 分 别 为 Q.。 和 Qu。。 
决定 以 下 的 分 布 : 
(a) 先 验 预 测 分 布 p(x | Yd. 
Cb) 似 然 分 布 bCy |x)。 
O 后 验 分 布 p(x, |Y), H Y, 表示 观测 值 的 序列 y ,ys ，…yv。 

14.20 ”继续 14.9 题 ， 证 明 最 优 重要 性 密度 分 布 pO | %-1,y,) 是 高 斯 分 布 。 

计算 机 实验 

14.21 在 这 个 问题 中 ， 我 们 利用 了 粒子 滤波 器 求解 计算 机 视觉 中 的 非 线 性 跟踪 问题 。 一 个 物体 由 5X5 个 像 
索 组 成 ， 按 以 下 两 个 等 式 定义 的 轨迹 移动 : 


x, = 200 





3. San 
N ) + 150 








sin 22") +50 y, = 100sin¢ 
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其 中 r, Ay, 是 第 x 步 的 图 像 坐标 ，N 是 幅 的 总 数 。300X 300 像素 的 场景 通过 图 P14. 21 可 视 化 。 这 
个 白色 的 背景 区 域 被 4 个 等 距 的 高 度 为 二 10 像素 的 黑色 条 分 割 ， 它 显示 区 域 的 前 景 。 物 体能 够 通过 
它 本 身 的 红色 被 分 辨 出 来 。 





wee 


图 P14.21 14.21 题 的 场景 和 轨迹 


(a) 用 浅 灰 色 表 示 的 模拟 轨迹 ， 作 为 一 个 图 像 序列 使 用 了 N= 150 帧 。 当 物体 移动 到 背景 区 域 时 确保 
物体 被 显示 出 来 ， 如 果 物 体 被 前 景 遮挡 ， 确 保 它 被 隐藏 。 

O 将 模拟 数据 作为 输入 ， 实 现 让 粒子 滤波 器 去 跟踪 这 个 物体 。 在 物体 可 见 的 区 域 ， 你 可 以 用 颜色 信 
息 来 获得 一 个 位 置 的 测量 值 ， 但 是 在 物体 被 遗 挡 的 区 域 ， 你 就 必须 依靠 滤波 估计 了 。 当 设置 状态 
空间 模型 的 时 候 ， 你 需要 做 什么 样 的 假设 呢 ? 在 场景 中 可 视 化 真实 的 和 估计 的 轨迹 。 

Co) 现在 在 不 同 的 实验 中 ， 逐 渐 增 加 前 景区 域 的 高 度 h。 解 释 为 了 保持 物体 的 轨迹 贯穿 整个 图 像 序列 
所 需要 的 权衡 。 帧 速率 和 粒子 数量 对 实验 有 怎样 的 影响 ? 

Cd) 在 跟踪 过 程 中 收集 的 信息 可 以 被 用 来 估计 场景 的 前 景 和 背景 部 分 ， 也 就 是 说 ， 获 取 物 体 与 它 所 交 
互 部 分 的 深度 。 讨 论 解 决 这 个 问题 的 可 能 的 方法 。 
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动态 驱动 递归 网 络 
本 章 组 织 
本 章 学 习 动态 递归 网 络 作为 输入 输出 映射 器 的 多 个 方面 。 
本 章 的 主要 内 容 组 织 如 下 


通过 和 第 13 和 第 14 章 的 链接 ，15.1 节 的 引言 给 出 了 动态 驱动 递归 网 络 学 习 的 动机 。 

15.2 节 讨 论 了 不 同 的 递归 网 络 结构 。 

15.3 节 和 15.4 节 讨论 递归 网 络 的 理论 方面 的 内 容 ， 强 调 了 通用 逼近 定理 以 及 可 控 性 和 可 
观测 性 。 

15. 5 节 讨论 递归 网 络 的 计算 能 力 。 

15.6 节 到 15. 8 节 介 绍 学 习 算 法 ，15. 6 节 是 学 习 算法 的 概述 ， 然 后 介绍 两 个 基于 梯度 的 算 
法 : 在 15.7 节 中 讨论 通过 时 间 的 反 疝 传播 算法 ，15. 8 节 中 讨论 实时 递归 学 习 算 法 。 

15. 9 节 讨 论 消失 梯度 问题 ， 它 限制 了 基于 梯度 递归 学 习 算 法 的 实际 应 用 能 力 ; 这 里 也 讨 
论 了 如 何 使 用 二 阶 方法 来 缓和 这 一 问题 。 

15.10 节 描 述 通过 使 用 序列 状态 估计 器 ， 解 决 递归 神经 网 络 的 有 监督 训练 〈 邵 估计 其 突 触 
权 值 )。 在 15. 11 节 中 给 出 一 个 计算 机 实验 。 

15. 12 节 讨 论 自 适应 行为 的 受 限 制 形式 ， 这 种 形式 仅仅 在 完成 有 监督 训练 并 固定 权 值 后 在 
递归 神经 网 络 中 被 观测 到 。 为 增强 这 一 自 适应 行为 ， 通 过 包含 自 适应 评估 ， 使 得 网 络 的 结构 得 
到 相应 的 扩展 。 

15. 13 节 强 调 了 一 个 使 用 模型 参考 的 神经 控制 器 的 实例 学 习 。 


15.1 引言 


我 们 用 下 面 这 句 话 来 开始 本 书 的 最 后 一 章 : 

全 局 反馈 是 计算 智能 的 促进 者 。 

在 第 13 章 中 通过 学 习作 为 联想 记忆 的 递归 网 络 已 经 很 好 地 说 明了 这 名 话 。 在 那里 ， 我 们 
论证 了 在 递归 网 络 中 使 用 全 局 反馈 如 何 完成 以 下 一 些 有 用 任务 : 

。 内 容 可 寻 址 的 存储 ， 以 Hopfield 网 络 为 例 。 

。 自 联想 ， 以 Anderson 的 盒 中 脑 状态 模型 为 例 。 

。 混沌 过 程 的 动态 重 构 ， 使 用 围绕 着 正则 一 步 预测 器 来 建立 的 反馈 。 

在 本 章 中 ， 我 们 学 习 递归 网 络 的 另 一 个 重要 的 应 用 : 输入 -输出 映射 器 ， 它 的 学 习 自 然 地 
从 第 14 章 的 逐次 状态 估计 中 获 益 。 例 如 ， 考 虑 将 具有 单 隐藏 层 的 多 层 感 知 器 作为 递归 网 络 的 
基本 构建 块 。 围 绕 多 层 感 知 器 的 全 局 反馈 应 用 ， 可 以 有 多 种 不 同 的 形式 。 可 以 从 多 层 感知 器 隐 
藏 层 的 输出 反馈 到 输 人 层 。 另 外 ， 也 可 以 从 输出 层 反馈 到 隐藏 层 的 输入 。 我 们 甚至 可 以 更 进 一 
步 ， 在 单一 递归 网 络 结构 中 ， 将 所 有 这 些 可 能 的 反馈 结合 起 来 。 当 然 我 们 也 可 以 考虑 其 他 的 神 
经 网 络 结构 作为 构造 递归 神经 网 络 的 基本 构建 块 。 重 要 的 是 递归 网 络 具 有 非常 丰富 的 结构 布 
局 ， 这 使 得 他 们 在 计算 上 具有 更 强大 的 能 力 。 

根据 定义 ， 一 个 映射 网 络 的 输入 空间 被 映射 到 一 个 输出 空间 。 对 于 这 方面 的 应 用 ， 递 归 网 络 依 
时 序 响应 外 部 应 用 的 输入 信号 。 因 此 ， 我 们 可 以 称 这 一 章 里 的 递归 网 络 为 动态 驱动 递归 网 络 一 本 
章 的 标题 由 此 而 来 。 而 且 ， 反 馈 的 应 用 ， 使 递归 网 络 能 够 得 到 状态 表示 ， 这 使 得 它 成 为 适应 于 不 同 
应 用 的 工具 ， 例 如 非 线性 预测 和 建 模 ， 通 信 信 道 的 自 适应 平衡 ， 语 音 处 理 ， 设 备 控制 等 。 
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15.2 递归 网 络 体系 结构 


如 前 面 引言 所 述 ， 递 归 网 络 的 结构 布局 有 许多 不 同形 式 。 本 节 讨 论 4 种 特殊 结构 ， 每 一 种 
着 重 于 全 局 反馈 的 一 种 特殊 形式 '。 它 们 有 如 下 共同 的 特点 : 
。 它们 都 结合 一 个 静态 多 层 感知 器 或 其 中 某 些 输入 
部 分 。 
。 它们 都 利用 多 层 感知 器 的 非 线 性 映射 能 力 。 
输入 -输出 递归 模型 
图 15. 1 显示 由 一 个 多 层 感知 器 的 自然 推广 而 得 到 的 
通用 递归 网 络 模型 。 模 型 有 一 个 输入 被 应 用 到 有 9 TH 
元 的 抽 头 延迟 线 记忆 。 模 型 的 单个 输出 通过 另外 g 个 单 
元 抽 头 延迟 线 记 忆 反 馈 到 输入 。 两 个 抽 头 延迟 线 记 忆 的 
内 容 被 用 于 反馈 到 多 层 感知 器 的 输入 。 模 型 输入 的 当前 
(E u, 代表 ， 相 对 应 的 输出 用 w+ 表示 ;也 就 是 输出 领 
先 输入 一 个 时 间 单 位 。 因 此 应 用 到 多 层 感知 器 输入 层 的 
信号 向 量 的 数据 窗口 由 如 下 分 量 组 成 。 
。 现在 和 过 去 的 输入 值 ， 即 wyw1，…，,w-ot1， 表 
示 来 自 网 络 外 部 的 输入 。 
° 输出 的 延迟 值 ， Bp Ynt Vol Yn—g+1 ° 在 此 基础 
上 模型 输出 ya+1 进 行 回 归 。 
图 15. 1 的 递归 网 络 称 为 有 外 部 输入 的 非 线 性 自 回 归 
模型 (nonlinear autoregressive with exogenous inputs 


model, NARX). NARX 的 动态 行为 由 
Yma = Fyne Yr en Uns bee) (15.1) 图 15.1 有 外 部 输入 的 非 线性 自 





























描述 ， 其 中 下 是 它 的 自 变 量 的 一 个 非 线性 函数 。 注 意 ， 回归 (NARX) 模型 
在 图 15. 1 中 已 经 假设 两 个 延迟 线 记 忆 有 同样 大 小 的 g; 它们 一 般 是 不 同 的 。 
状态 空间 模型 


图 15. 2 表示 另 一 种 通用 的 递归 网 络 的 框图 ， 称 为 状态 空间 模型 。 隐 藏 神经 元 定义 网 络 的 
状态 。 隐 藏 层 的 输出 通过 一 个 单位 时 间 模 块 反馈 回 输入 。 输 入 层 为 反馈 节点 和 源 节 点 的 联合 。 
网 络 是 通过 源 节点 和 外 部 连接 的 。 用 于 将 隐藏 层 输出 反馈 回 输入 层 的 延迟 单元 的 数目 决定 了 模 
型 的 阶 数 。mX1 维 的 向 量 w 代表 输入 向 量 ，gX1 向 量 zx 代表 隐藏 层 在 ”时 刻 的 输出 向 量 。 
我 们 可 以 用 下 列 两 个 联 立方 程 组 描述 在 图 15. 2 中 的 模型 的 动态 行为 : 


Xa = ACX, oU, ) (15. 2) 
4 个 单位 
时 间 延 迟 模块 


y, = Bx, (15.3) | 


x, LES | Yor | p 个 单位 时 间 | 。 % 
u, a) £ = E R ae 
输入 向 量 E x. : 


1--~-------------------------------------: 


Nieminen 
图 15.2 状态 空间 模型 





输出 向 量 
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这 里 a(*,"〉 是 一 个 刻画 隐藏 层 特征 的 非 线性 函数 ，B 是 代表 输出 层 特征 的 突 触 权 值 矩 阵 。 隐 
藏 层 是 非 线 性 的 ， 但 输出 层 是 线性 的 。 

图 15. 2 的 递归 网 络 包括 几 个 特殊 的 递归 结构 作为 其 特例 。 例 如 ，Elman(1990，1996) $ 
述 过 的 在 图 15. 3 所 示 的 简单 递归 网 络 (simple recurrent network, SRN), Elman 网 络 结构 和 
图 15. 2 所 示 结 构 有 相似 之 处 ， 除 了 输出 层 可 以 是 非 线性 的 和 省 略 了 输出 的 单位 时 间 延 迟 模块 
之 外 。 在 文献 中 它 通常 被 称 为 简单 递归 网 络 ， 其 意义 是 由 递归 网 络 计算 的 误差 导数 是 回 到 过 去 
的 一 个 时 间 步 的 “简单 ”延迟 ; 然而， 这 个 简单 性 不 阻止 网 络 从 很 远 的 过 去 存储 信息 。 

背景 单元 


| aa A 
4 meme 〖 






输入 向 量 器 


单个 隐藏 层 的 多 层 感知 器 


图 15.3 简单 递归 网 络 (SRN) 

Elman 网 络 包含 从 隐藏 层 神经 元 到 由 单位 时 间 延 迟 组 成 的 背景 单元 Context unit) 层 之 闻 的 递 
归 连 接 。 这 些 背景 单元 存储 隐藏 神经 元 对 应 一 个 时 间 步 的 输出 ， 接 着 反馈 回 输 入 层 。 因 此 隐藏 神经 
元 具有 它们 以 前 激活 的 记录 ， 这 使 得 网 络 可 以 进行 通过 时 间 扩展 的 学 习 任 务 。 隐 藏 神经 元 也 反馈 给 
输出 神经 元 ， 输 出 神经 元 给 出 在 外 部 激励 作用 下 网 络 的 响应 。 由 于 隐藏 神经 元 反馈 的 特性 ， 这 些 神 
经 元 在 多 时 间 步 内 通过 网 络 继续 递归 信息 ， 从 而 发 现时 间 的 抽象 表示 ， 这 就 是 反馈 的 能 力 。 
递归 多 层 感知 器 

第 三 种 递归 结构 是 一 种 递归 多 层 感 知 器 (recurrent multilayer perceptron, RMLP) (Pus- 
korius 等 ，1996)。 它 有 一 个 或 多 个 隐藏 层 ， 基 于 同样 的 原因 ， 静 态 多 层 感知 器 比 使 用 单个 隐 
藏 层 的 感知 器 更 有 效 和 节约 。RMLP 的 每 一 个 计算 层 对 它 的 邻近 层 有 一 个 反馈 ， 如 图 15.4 所 
示 ， 此 时 RMLP 有 两 个 隐藏 层 * 。 





单位 时 间 延 迟 模块 


A T'IK 





多 个 隐藏 层 的 多 层 感 知 器 


图 15.4 递归 多 层 感知 器 
向 量 x 代表 第 一 个 隐藏 层 的 输出 ，xy, 代表 第 二 个 隐藏 层 的 输出 ， 以 此 类 推 。 向 量 x 代表 
输出 层 的 输出 。 那 么 ，RMLP 通常 对 输入 向 量 u 的 响应 的 动态 行为 可 用 如 下 联 立方 程 组 描述 : 
Xie. 一 中 | Xr,» » Un) 


Xma = Pa Karn Xr) (15. 4) 


Xoni 一 >, (Xon XK yeti) 
其 中 中 oe aby © oe) et, © 9) 分 别 表示 代表 RMLP 第 一 个 隐藏 层 、 第 二 个 隐藏 层 …… 以 
及 输出 层 的 激活 函数 ; K 表示 网 络 中 隐藏 层 的 数目 。 在 图 15.4 中 ， 玫 一 2 。 
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这 里 描述 的 RMLP 包括 图 15. 3 的 Elman 网 络 和 图 15. 2 的 状态 空间 模型 ， 因 为 RMLP 的 
输出 层 或 任何 隐藏 层 没有 限定 其 激活 函数 的 具体 形式 。 
二 阶 网 络 
在 描述 图 15. 2 的 状态 空间 模型 中 ， 我 们 用 “ 阶 ” 来 表示 隐藏 神经 元 的 数目 ， 其 输出 通过 
单位 时 间 延 迟 模块 反馈 回 输 入 层 。 
但 是 在 另外 的 背景 中 ， 术 语 “ 阶 ”有 时 用 来 表示 如 何 定 义 神经 元 的 诱导 局 部 域 的 方法 。 例 
如 ， 一 个 多 层 感 知 器 神经 元 上 的 诱导 局 部 域 w 定义 为 
Ve = X wasz; + wren: (15. 5) 
其 中 r; 源 于 隐藏 层 神经 元 7 的 反馈 信号 ，u; 是 输入 层 应 用 于 节点 的 源 信号 ; w 表示 网 络 中 
对 应 的 突 触 权 值 。 将 式 (15. 5) 所 描述 的 神经 元 称 为 一 阶 神经 元 。 但 是 ， 有 时 诱导 局 部 域 w 由 
乘法 组 成 ， 表 示 为 
一 5 > wayru; (15.6) 


我 们 称 这 里 的 神经 元 为 二 阶 神经 元 。 二 阶 神经 元 用 了 单一 的 权 值 ws;， 它 和 输入 节点 i，j 连 
接 起 来 。 
二 阶 神经 元 组 成 基本 的 二 阶 递归 网 络 (Giles 等 ，1990), 它 的 一 个 例子 如 图 15.5 所 示 。 
网 络 接受 按时 间 顺 序 的 输入 序列 ， 并 且 按 如 下 两 个 式 子 定义 的 动力 学 演化 
Vin 一 b, 十 > D WiZ isnt jo (15. 7) 


(15. 8) 





Le = Gen) = 1 
Ertl PA Ven 1+ exp(— u,,) 


其 中 w,* 为 隐藏 神经 元 & 的 诱导 局 部 域 ，b 为 相关 联 的 偏 置 ，zi.; 为 神经 元 & 的 状态 〈 输 出 )， 
wr 是 应 用 于 源 节 点 7 的 输入 ，rew; 为 二 阶 神经 元 & 的 权 值 。 
图 15. 5 所 示 的 二 阶 递归 网 络 的 一 个 特点 是 乘积 zj,wuj,, 代 表 一 对 {状态 ， 输 入 }， 一 个 正 的 
单位 延迟 











图 15.5 二 阶 递归 网 络 ; 为 简单 起 见 省 略 神 经 元 的 偏 置 连接 。 网 络 包含 
2 个 输入 和 3 个 状态 神经 元 ， 因 此 需要 3X2 一 6 个 乘法 器 
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BUA ww 表示 从 ORAS. BA) 到 {于 一 个 状态 } 的 状态 转移 的 出 现 ， 而 权 值 为 负 表 示 没 有 转 
移出 现 。 状 态 转移 描述 如 下 : 

OCL suj) = Lp (15.9) 
根据 这 种 关系 ， 二 阶 网 络 可 以 用 来 表示 和 学 习 确 定性 有 限 状态 自动 机 ' Cdeterministic finite- 
state automated, DFA), DFA 是 一 个 有 确定 状态 数目 的 信息 处 理 装 置 。 在 15. 5 节 将 介绍 更 多 
关于 神经 网 络 和 自动 机 关系 的 细节 。 

15.3 通用 逼近 定理 
在 动态 系统 的 数学 描述 上 ， 状 态 的 概念 起 着 重要 的 作用 ， 正 如 在 第 14 章 中 解释 的 细节 那 
样 。 动 态 系 统 的 状态 形式 地 定义 为 一 些 数量 的 集合 ， 它 概括 为 了 唯一 地 描述 系统 将 来 行为 所 必 
需 的 系统 过 去 行为 的 全 部 信息 ， 除 了 用 于 输入 (激励 ) 产生 的 外 部 效果 之 外 。gqX1 向 量 x 表 
示 非 线性 离散 时 间 系 统 的 状态 。mX1 向 量 w 表示 用 于 系统 的 输入 ，p X1 向 量 yw 表示 相应 的 
输出 。 假 设 无 噪声 ， 考 虑 递归 网 络 的 动态 行为 用 非 线性 方程 组 
Xm = OCW,x, + W,u,) (15. 10) 
Ya = Wx (15. 11) 
描述 ， 其 中 W, 是 g Xg HB. W 是 g Xm BH, W 是 pz Xg Bs 中 : RR! EX Ak 
射 ， 由 


Tı olx) 
T2 glx) 

中 :| . | 一 . (15.12) 
Xa plz) 


描述 ， 表 示 某 种 无 记忆 的 分 量 方式 的 非 线性 p: RR. SAR”, RAR? 分 别称 为 输入 空 
间 、 状 态 空间 和 输出 空间 。 状 态 空间 的 维 数 Clg) 是 系统 的 阶 。 因 此 图 15. 2 的 状态 空间 模型 
Bm A. »p 输出 的 g 阶 递归 模型 。 式 (15. 10) 是 模型 的 系统 ORE) 方程 ， 式 (15. 11) 是 度量 
方程 。 系 统 方 程 (15. 10) 是 式 (15. 2) 的 特殊 形式 。 

建立 在 使 用 静态 多 层 感知 器 和 两 个 延迟 线 记 忆 基 础 上 的 图 15. 2 的 递归 网 络 提供 一 种 实现 
式 (15. 10) 和 式 (15. 12) 非 线性 反馈 系统 的 方法 。 注 意图 15. 2， 在 多 层 感知 器 的 神经 元 中 ， 只 
有 那些 通过 延迟 将 其 输出 反馈 到 输入 层 的 神经 元 与 确定 递归 网 络 的 状态 有 关 。 因 此 这 就 把 输出 
层 的 神经 元 排除 在 状态 的 定义 之 外 。 

对 于 和 矩阵 W,，W, 和 W. 的 解释 ， 以 及 对 非 线性 函数 pC), KERA TF: 

。 SRW. 代表 隐藏 层 的 9 个 神经 元 连接 到 输入 层 的 反馈 节点 的 突 触 权 值 。 和 矩阵 W, 代表 

连接 到 输入 层 源 节点 的 这 些 隐藏 神经 元 的 突 触 权 值 。 为 了 简化 式 (15. 10) 的 构成 ， 状 态 


模型 中 排除 了 偏 置 的 使 用 。 
。 EW. 代表 输出 层 中 连接 到 隐 含 神经 元 的 pb 个 线性 神经 元 的 突 触 权 值 。 这 里 再 一 次 
输出 层 的 偏 置 被 忽视 了 以 简化 表达 。 
。 非 线 性 函数 oC) 代表 隐藏 神经 元 的 sigmoid 激活 函数 。 激活 函数 通常 具有 双 曲 正切 的 
形式 : 
g(x) = tanh(z) = | (15. 13) 
或 logistic 函数 的 形式 : 
p(n) = os (15. 14) 
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式 (15. 10) 和 式 (15. 11) 摘 述 了 状态 空间 模型 递归 网 络 的 一 个 重要 性 质 ， 即 它 是 所 有 非 线性 
动态 系统 的 通用 适 近 器 。 具 体 可 以 陈述 如 下 : 

如 果 网 络 具 有 充分 多 的 隐藏 神经 元 ， 任 意 的 非 线 性 动态 系统 可 以 由 递归 神经 网 络 以 期 望 的 
精确 度 来 各 近 ， 对 于 状态 空间 的 紧 致 性 没有 限制 。 

确实 ， 关 于 通用 逼近 的 次 刻 陈述 是 递归 网 络 用 于 信号 处 理 和 控制 应 用 的 计算 能 力 的 证 据 。 


例 1 全 连接 递归 网 络 
为 了 表示 矩阵 W.，W, MW. 的 组 成 ， 考 虑 图 15. 6 所 示 的 完全 连接 递归 网 络 ， 其 中 反馈 


路 径 来 自 隐 藏 神经 元 。 在 这 个 例子 中 ， n= 25q =3,p= l. 矩阵 Wa W 定义 如 下 : 


和 
Di Wis 
W, = f Wr os 
bs Wa Was 
Fh aE W, 的 第 一 列 由 b yb, ,0 组 成 ， 分 别 代 表 神 经 元 1,253 的 偏 置 项 。 矩阵 W. 是 一 个 行 
向 量 ， 定 义 为 
w, = [1,0,0] n 
单位 时 间 延 迟 























输入 层 计算 层 
图 15. 6 有 两 个 输入 、 两 个 隐藏 神经 元 和 一 个 输出 神经 元 的 完全 连接 递归 网 络 
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15.4 可 控 性 和 可 观测 性 


前 面 已 提 到 过 ， 许 多 递归 网 络 能 用 图 15. 2 所 示 的 状态 空间 模型 表示 ， 其 中 状态 定义 为 通 
过 一 系列 延迟 单元 反馈 回 输 入 层 的 隐藏 层 输出 。 在 此 背景 下 ， 知 道 递 归 网 络 是 否 可 控 和 可 观测 
是 很 重要 的 。 可 控 性 是 指 我 们 能 否 控 制 递归 网 络 的 动态 行为 。 可 观测 性 是 指 我 们 能 否 观 测 到 应 
用 于 递归 网 络 的 控制 结果 。 . 
说 递归 网 络 是 可 挖 的 ， 是 指 在 有 限时 间 步 内 ， 初 始 状 态 可 以 控制 到 任意 想 达 到 的 状态 ; 输 
出 与 这 个 定义 无 关 。 说 递归 网 络 是 可 观测 的 ， 是 指 在 有 限 的 输入 /输出 度量 中 网 络 的 状态 可 以 
确定 。 在 线性 系统 理论 中 对 可 控 性 和 可 观测 性 的 概念 有 完整 的 论述 ;。 在 这 里 学 习 的 递归 神经 
网 络 中 ， 我 们 将 自己 限制 在 可 控 性 和 可 观测 性 的 局 部 形式 。 局 部 是 指 将 这 些 概 念 应 用 于 网 络 平 
衡 状态 邻 域 的 意义 下 ， 在 第 13 章 中 讨论 了 平衡 状态 的 细节 。 
如 果 对 于 输入 u 和 一 个 待定 义 的 矩阵 AL, CARE 
= AX (15. 15) 
就 说 状态 各 是 式 (15. 10) 的 一 个 平衡 状态 。 
为 了 简化 阐述， 平衡 状态 由 下 面条 件 描述 
0 一 中 0) 对 x=0， 
换 句 话说 ， 原 点 0.0) 代表 平衡 点 。 l 
同样 不 失 一 般 性 ， 我 们 可 以 限制 到 一 个 单 输入 、 单 输出 (single input, single output, SI- 
SO) 系统 来 简化 我 们 的 论述 。 可 以 把 式 (15. 10) 和 式 (15. 11) 分 别 改 写 为 
Xen = OCW, Xn, 十 wx) (15. 16) 
和 
Yn = We Xn (15. 17) 
其 中 w 和 W. 都 是 g X1 的 列 向 量 ，w EMEWA, ya 为 标量 输出 。 由 于 p 对 应 于 式 (15. 13) 
或 式 (15. 14) 的 sigmoid 函数 是 连续 可 微 的 ， 我们 可 以 通过 在 平衡 点 x 二 0 和 72=0 的 附近 把 式 
(15. 16) 展 开 成 Taylor 级 数 而 使 其 线性 化 ， 并 保留 一 阶 项 ， 得 到 
ÒX = OOW, òx, + D0) w,du, (15. 18) 
其 中 ox, Adu, 是 分 别 应 用 到 状态 和 输入 的 小 位 移 。9Xv 矩阵 OO) 是 中 (v) 在 v=0 时 对 变量 
v 的 Jacobi 行列 式 。 我 们 可 以 描述 线性 化 的 系统 如 下 : 


OX. = A,X, 十 az6u， (15. 19) 
和 
Oy, = WOX, (15. 20) 
其 中 gxXg HH A, 和 gX1 列 向 量 a 分 别 定义 如 下 : 
A; = 中 (0) W， (15. 21) 
和 
a, = @(0)w, (15. 22) 


状态 方程 (15. 19) 和 (15. 20) 是 标准 的 线性 形式 。 因 此 可 以 利用 线性 动态 系统 的 可 控 性 和 可 观测 
性 的 众所周知 的 结果 ， 它 们 是 数学 控制 论 的 一 个 标准 部 分 。 
局 部 可 控 性 
从 线性 化 的 方程 (15. 19)， 重 复 迭 代 产 生 下 列 结果 ， 
OX. = A, Ox, + adu, 
OXni2 = ALOX, + Arar du, + az duns 
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6x = ALOX, + AT an du, 十 + Ap ae One F a2 dunte 
EF g 是 状态 空间 的 维 数 。 相 应 地 ， 我 们 可 以 说 (Levin and Narendra, 1993); 


方程 (15. 19) 表 示 的 线性 化 系统 是 可 控 的 ， 如 果 竹 阵 
M. = [AT ‘ae ,Al,azyas] (15. 23) 
有 秩 g， 即 满 秩 ， 因 为 这 样 线性 化 的 系统 (15.23) 有 唯一 的 OX AIMA Unsun Une 的 表 
TR, BRA, a 和 Òx. 


和 矩阵 M. 称 为 线性 系统 的 可 控 性 矩阵。 
设 方程 (15. 16) 和 (15. 17) 描 述 的 递归 网 络 由 一 系列 输入 ,驱动 ， 其 定义 为 
Ug = [ttn Uti s**t Mate]? (15. 24) 
因此 可 以 考虑 映射 
GCx Ug.n) = (Xn Xorg) (15. 25) 
其 中 G:R* 一 RR*。 在 习题 15.4 PLE: 
。 状态 x+ 是 其 过 去 值 x 和 和 输入 Un sUn 9 s Marcel 的 嵌 套 非 线性 函数 。 
。 x+ 关于 uw 的 Jacobi 和 矩阵 在 原点 的 值 等 于 式 (15. 23) BY YE M.. 
我 们 可 以 把 映射 G 关于 w., 和 x 的 Jacobi 矩阵 在 原点 〈0，0) 的 值 表示 为 


OX OXntg 
(3) ow 人 ax, ) ow _ F x] (15. 26) 


akg M. 
(Eo) (P) o ° 
其 中 工 是 单位 矩阵 ，0 是 零 矩 阵 ， 项 X 是 不 感 兴趣 的 部 分 。 因 为 它 的 特殊 形式 ，Jo 的 行列 式 
SPM LTR (等 于 1) 和 可 控 性 和 矩阵 M, 的 行列 式 乘 积 。 如 果 M, BRE, I 
么 Jie 也 是 满 秩 的 。 
为 了 继续 处 理 ， 我 们 和 需要 引用 反 另 数 定理 ， 它 可 以 陈述 如 下 (Vidyasagar, 1993); 


考虑 映射 f: R" 一 RR*， 假 设 映 射 f 的 每 一 个 分 量 对 于 它 的 变量 在 平衡 点 x ER ARETA 
的 ， 并 令 y=). MAREFRUCR’ 包含 Xo RAVER’? By, KBCAUAVEH AD 
ARB, WREAAAAH, MAARRE R R 也 是 光滑 的 ， 即 下 是 光滑 微分 同 甩 。 


映射 了 :UW>%Y 如 果 满 足下 列 3 个 条 件 〈 参 见 第 7 章 )， 则 说 它 是 % 到 上 的 微分 同 胚 ， 

1. f(W)=Y., 

2. BR f:9 一 外 是 一 对 一 的 〈 即 可 着 的 ) 。 

3. 道 映射 全 ! :YV 一 的 每 个 分 量 关 于 它 的 变量 是 连续 可 微 的 。 

回 到 可 控 性 的 问题 ， 我 们 将 对 式 (15. 25) 定 义 的 映射 验证 满足 反 函 数 定理 中 的 FCW) 一 处 条 
(F. MARRA, WRT EER M. 的 秩 为 g， 可 以 说 局 部 存在 一 个 反映 射 ， 定义 为 

Xn Xna) = GG KU) : (15. 27) 

式 (15. 27) 实 际 上 指出 存在 一 个 输入 序列 能 局 部 驱动 网 络 在 g 个 时 间 步 中 从 状态 x, 到 x,+,。 所 
以 ,我们 可 以 正式 陈述 局 部 可 控 性 定理 如 下 (Levin and Narendra, 1993); 


假定 递归 网 络 由 式 (15.16) 和 式 (15.17) 定 义 ， 它 在 原点 〈 即 平衡 点 ) 附近 的 线性 化 方程 由 


式 (15.19) 和 式 (15.20) 定 义 。 如 果 线 性 化 系统 是 可 控 的 ， 则 递归 网 络 在 原点 附近 是 局 部 可 
控 的 。 





《ce) 
Jow = 
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局 部 可 观测 性 
重复 使 用 线性 化 的 式 (15. 19) 和 式 (15. 20) ， 可 得 
OV, = WLOX, 


OV nt = wIGx = we A Ox, + wi a, du, 


ÖY mei = wI AT "6x, 十 w Af azu, +o + w Ai az ÔU mea 十 WI Az OU mge 
Hh g 是 状态 空间 的 维 数 。 所 以 ， 我 们 可 以 陈述 (Levin and Narendra, 1993); 
式 (15. 19) 和 式 (15. 20) 描 述 的 线性 化 系统 是 可 观测 的 ， 如 果 撼 阵 
M, = Lw.,wAT，…we(CAL) ] (15. 28) 
WA g, MR. 
和 矩阵 M, 称 为 线性 系统 的 可 观测 性 矩阵。 
令 用 于 驱动 由 式 (15. 19) 和 式 (15. 20) 描 述 的 递归 网 络 的 一 系列 输入 定义 如 下 : 


Ugi, = [u, s Unit stt sUntg-2 17 (15. 29) 
相应 地 ， 令 

Yon 一 Cyn s Ynti tt o Yma d (15. 30) 
代表 由 初始 状态 x, 和 输入 序列 u,-_1,; 产 生 的 输出 向 量 。 那 么 我 们 可 以 考虑 映射 

了 Cu no Xa) = Ain Yan) (15. 31) 


其 中 H; R> R, YM 15.5 中 证 明 yw 对 xu 的 Jacobi 和 矩阵 在 原点 的 值 等 于 式 
(15. 28) 的 可 观测 矩阵 M,。 因 此 H 关于 ws, x, 的 Jacobi 和 矩阵 在 原点 〈0,0) 的 值 可 表 
示 为 








Qu il， OYa.n 
(Se) oo (se) _ F | 


(| 2m 
OX, / (0,0) 6X, / (0.0) 
其 中 XX 同样 为 不 感 兴趣 的 部 分 。Jfe 的 行列 式 等 于 单位 矩阵 工 的 行列 式 (等 于 1) 和 和 矩阵 M。 
的 行列 式 的 乘积 。 如 果 M, EWE, WA Jp 也是。 引用 反 函 数 定理 ， 可 以 说 如 果 线 性 化 系统 
的 可 观测 性 矩阵 M, 是 满 秩 的 ， 则 存在 一 个 逆 映 射 ， 定 义 为 

i.n Xn) = A tin Yon) (15. 33) 
实际 上 ， 这 个 等 式 表明 在 原点 的 局 部 邻 域 ，x 是 yn A Youn PIERRE PB, SE BE Be E A 
归 网 络 的 观测 器 。 因 此 局 部 可 观测 性 定理 可 正式 地 陈述 如 下 (Levin and Narendra, 1993): 


由 式 (15.16) 和 式 (15. 17) 所 定义 的 递归 网 络 ， 令 它 在 原点 〈 即 平衡 点 ) 附近 线性 化 的 形式 
由 式 (15.19) 和 式 (15.20) 所 定义 。 如 果 线 性 系统 是 可 观测 的 ， 则 递归 网 络 在 原点 附近 是 可 观 
测 的 。 

例 2 简单 状态 空间 模型 的 可 控制 性 和 可 观测 性 

BREER A =d 的 状态 空间 模型 ， 这 里 a 是 标量 ，I 是 单位 抢 阵 。 式 (15. 23) 的 可 控 
性 矩阵 M. 简化 为 


(15. 32) 





M. = ala s**a ,az | 
HERKEL BHE, RAER A 的 值 的 线性 化 系统 是 不 可 控 的 。 
在 式 (15. 28) 中 置 A = 二 aI1， 得 到 可 观测 性 矩阵 


M, = aLw. sW: ore »w. | 
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它 的 秩 也 为 1。 这 个 线性 系统 也 是 不 可 观测 的 。 E 
15.5 递归 网 络 的 计算 能 力 


如 图 15. 2 所 示 的 状态 空间 模型 和 图 15. 1 的 NARX 模型 ， 递 归 网 络 具 有 模拟 有 限 状 态 自 
动机 的 固有 能 力 。 自 动机 表示 像 计 算 机 一 样 的 信息 处 理 设备 的 抽象 。 实 际 上 自动 机 和 神经 网 络 
有 久远 的 渊源 ' Minsky 在 他 1967 RE (Computation; Finite and Infinite Machines》 中 第 
55 页 有 如 下 重要 的 说 明 : 


“每 一 有 限 状态 机 等 价 于 某 神 经 网 络 ， 并 且 可 以 由 它 模 拟 。 也 就 是 说 ， 给 定 一 有 限 状态 机 
作 ， 可 以 建立 一 个 神经 网 络 N4 ， 若 将 它 看 做 一 个 黑箱 机 器 ， 则 其 行为 酷似 人 L1? 


递归 网 络 的 早期 工作 用 硬 的 阔 值 逻辑 作为 神经 元 的 激活 函数 而 不 用 软 的 sigmoid 函数 。 

也 许 是 Cleeremans(1989) 第 一 个 报道 了 展示 递归 网 络 能 否 学 会 由 小 型 有 限 状 态 语法 所 包 
含 的 例外 偶发 性 ) 的 试验 。 特别 ， 由 语法 导出 的 字符 串 赋 给 简单 递归 网 络 〈 见 图 15. 3) ， 需 
要 它 在 每 一 步 预测 下 一 字母 。 预 测 是 上 下 文 相 关 的 ， 因 为 每 一 个 在 语法 中 出 现 两 次 的 字母 每 次 

它 的 后 继 字母 都 不 同 。 这 表明 网 络 能 够 在 隐藏 神经 元 中 发 展 对 应 自动 机 (有限 状态 机 ) 状态 的 
内 部 表示 。 在 Kremer(1995) 中 给 出 正式 的 证 明 ， 表明 简单 递归 网 络 有 和 任何 有 限 状 态 机 一 样 
的 计算 能 力 。 

在 一 般 意义 下 ， 递 归 网 络 的 计算 能 力 体现 在 两 个 主要 定理 。 

定理 (Siegelmann and Sontag, 1991) 


所 有 图 灵机 都 可 由 建立 在 用 sigmoid 激活 函数 的 神经 元 上 的 完全 连接 递归 网 络 模拟 。 


图 灵机 是 Turing(1936) 发 明 的 抽象 计算 工具 ;其 数学 模型 比 有 限 状 态 自 动机 更 一 般 。 因 
此 ， 通 过 递归 网 络 来 模拟 图 灵机 是 更 具 挑 战 
性 的 命题 。 它 由 图 15.7 所 示 的 三 个 功能 块 
构成 ， 

1. 控制 单元 ， 假 设 任何 可 能 的 有 限 状 态 
之 一 。 

2. 线性 带 ， 假 设 在 两 个 方向 上 是 无 限 的 ， 
被 划分 成 分 离 的 方块 ， 每 个 方块 都 可 以 存储 一 
个 单一 的 符号 ， 这 些 符号 是 从 一 个 有 限 的 符号 
集合 中 取出 的 。 图 15.7 图 灵机 

3. 读 写 头 ， 活 着 线性 带 移动 ， 并 从 控制 单元 得 到 信息 和 把 信息 传送 到 控制 单元 。 


函数 f(z) 称 为 是 可 计算 的 ， 如 果 存 在 图 灵机 ， 在 给 定 自 变 量 z 表示 的 带 时 ， 最 终 在 带 表 
示 值 f(z) 时 停止 。 然而， 这 一 思想 是 有 问题 的 ， 因 为 计算 思想 缺少 正式 定义 。 无 论 如 何 ， 
Church-Turing 理论 认为 图 灵机 能 够 计算 任意 可 计算 函数 ， 这 一 理论 被 作为 充分 条 件 而 广 为 接 
受 (Russell and Norvig, 1995)。 

定理 工 (siegelmann 等 ，1997) 


对 于 NARX 网 络 ， 若 具有 一 隐藏 层 单元 ， 其 激活 函数 为 有 界 和 单 侧 饱 和 的 并 且 有 一 个 线 
性 输出 神经 元 ， 那 么 不 计 线 性 延迟 (linear slowdown)， 它 可 以 模拟 用 完全 连接 的 具有 有 界 且 
单 侧 饱 和 的 激活 函数 的 递归 网 络 。 


线性 延迟 是 指 如 果 一 个 完全 连接 的 有 N 个 神经 元 的 递归 网 络 在 时 间 全 内 计算 一 个 我 们 感 
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兴趣 的 任务 ， 那 么 等 价 的 NARX 网 络 所 占用 的 总 时 间 是 (N 十 1)T。 函 数 oO) 如 果 满 足下 列 
条 件 则 说 它 是 有 界 且 单 边 饱和 的 ‘bounded，one-sided saturated, BOSS) MA: 


1. 函数 ol) ERAR; P a<glz)<b, a#b, FHA CER. 
2. BRM pl) 是 左 饱 各 的 ; MAREAS, g TAA Ss, A p(z) 一 S。 
3. AB ol) 是 非常 数 的 ; 即 存在 不 相同 的 两 个 数 r fer, BR p(zi) 天 op(zz)。 


WIE (Heaviside) 和 分 段 线性 函数 满足 BOSS 条 件 。 但 是 在 严格 意义 上 sigmoid 函数 不 是 
一 个 BOSS 函数 ， 因 为 它 不 满足 条 件 2。 但 是 做 一 个 小 的 修改 ， 它 可 以 满足 BOSS 条 件 ， 即 写 
成 (在 logistic 函数 的 情况 下 ) 


1 . 
0, 对 于 Xs 


其 中 xzE R 。 实 际 上 ， 在 <s 时 logistic 函数 是 截断 的 。 ER 
作为 定理 工 和 定理 下 的 推论 ， 我 们 可 以 得 到 (Giles, 1996). | man k Set 
有 一 个 隐藏 层 神经 元 上 且 激 活 函 数 为 BOSS 函数 及 一 个 线性 输 i 

出 神经 元 的 NARX 网 络 是 图 灵 等 价 的 。 ana 


图 15. 8 给 出 定理 工 和 定理 卫 及 这 个 推论 的 图 解 。 但 是 ， 必 人 
须 注意 当 网 络 体系 结构 受到 限制 时 ， 递 归 网 络 的 计算 能 力 就 不 再 “图 15 8 em Meme 
成 立 ， 如 同 在 Sperduti(1997) 描述 的 一 样 。 在 注释 7 中 给 出 受 限 它们 的 推论 的 图 解 
制 的 网 络 体系 结构 的 参考 文献 。 


15.6 学 习 算 法 


现在 来 研究 递归 网 络 的 训练 问题 。 第 4 章 讨论 过 普通 (静态) 多 层 感 知 器 的 两 种 方式 : 批 
量 方式 和 随机 CBA) 方式 。 在 批量 方式 中 ， 网 络 的 敏感 度 是 在 调整 网 络 的 自由 参数 前 针对 整 
个 训练 集 计算 的 。 在 随机 方式 中 ， 参 数 的 调整 是 在 给 出 训练 集 的 每 一 个 模式 的 表示 之 后 进行 
的 。 同 样 ， 有 两 个 训练 递归 网 络 的 方式 如 下 (Williams and Zipser, 1995); 

1. 分 回合 (epochwise) 的 训练 。 在 给 定 的 回合 ， 递归 网 络 利用 输入 -目标 响应 对 的 时 间 序 
列 从 初始 状态 出 发 到 达 一 个 新 的 状态 后 停止 ， 此 时 训练 亦 停止 ;然后 对 于 下 一 个 回合 又 重新 设 
置 一 个 新 的 初始 状态 。 初 始 状态 在 每 个 训练 时 期 并 不 总 是 一 样 的。 重要 的 是 对 于 新 的 回合 的 初 
始 状态 和 网 络 在 此 前 一 个 回合 到 达 的 状态 不 一 样 。 例 如 ， 考 虑 用 递归 网 络 模拟 有 限 状 态 机 的 运 
行 。 在 这 种 条 件 下 ， 有 理由 使 用 分 回合 的 训练 ， 因 为 我 们 有 很 大 的 可 能 性 用 递归 网 络 去 模拟 机 
器 中 大 量 的 不 同 的 初始 状态 和 不 同 的 最 终 状态 的 集合 。 在 递归 网 络 的 分 回合 训练 中 ，“ 回 合 ” 
与 一 般 普 通 多 层 感 知 器 中 使 用 的 意义 不 同 。 尽 管 在 多 层 感 知 器 的 训练 的 一 个 回合 包含 整个 输 
人 -目标 响应 对 的 训练 样本 ， 递 归 网 络 训练 的 回合 包含 时 间 串 行 输入 -目标 响应 对 的 一 个 训练 
模式 。 

2. 连续 训练 。 训 练 的 第 二 种 方法 适合 于 没有 可 用 的 重 置 状态 或 需要 在 线 学 习 的 情况 。 
连续 训练 的 显著 特征 是 网 络 学 习 和 被 网 络 处 理 的 信号 处 理 同时 进行 。 简 单 地 说 ， 学 习 过 程 永 
不 停止 。 例如， 考虑 让 递归 网 络 去 对 一 个 非 稳 态 过 程 如 语音 信号 建 模 。 在 这 种 情况 下 ， 网 络 
的 连续 运行 不 能 提供 方便 的 时 刻 以 决定 何 时 停止 训练 而 重新 开始 用 网 络 不 同 自由 参数 的 值 。 

记 住 这 两 种 训练 的 方式 ， 在 下 面 的 两 节 中 我 们 将 描述 递归 网 络 的 不 同 的 学 习 算 法 ， 可 概述 
如 下 : 
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。 在 15.7 节 讨论 的 通过 时 间 的 反 向 传播 (back-propagation-through-time, BPTT) 算法 
是 在 这 样 的 前 提 下 提出 的 ， 即 递归 网 络 的 时 序 操作 可 以 展开 为 一 个 多 层 感 知 器 。 这 就 
为 标准 反 向 传播 算法 的 应 用 铺 平 了 道路 。 通 过 时 间 的 反 向 传播 算法 可 以 用 分 回合 的 方 
式 、 连 续 方 式 或 丙种 方式 的 组 合 来 实现 。 

。 7615. 8 节 讨 论 的 实时 递归 学 习 〈RTRL) 算法 是 从 式 (15. 10) 和 式 (15. 11) 描 述 的 状态 

空间 模型 导出 的 。 
基本 上 ，BPTT 和 RTRL 包含 了 导数 的 传播 ， 一 个 是 反 向 的 另 一 个 是 前 向 的 。 它 们 能 用 于 任 
何 需要 利用 导数 的 训练 过 程 。BPTT E RTRL 需要 更 少 的 计算 量 , 但 随 着 串 行 输入 -目标 响应 
对 序列 长 度 的 增加 ，BPTT 需要 的 存储 空间 也 快速 增加 。 一 般 而 言 ， 我 们 因此 说 BPTT 处 理 离 
线 训练 更 好 ， 而 RTRL 更 适合 于 在 线 连 续 训练 。 

两 种 算法 有 很 多 共同 点 。 第 一 ， 它 们 都 是 基于 梯度 下 降 的 方法 ， 因 此 代价 函数 的 瞬时 值 
(基于 平方 误差 准则 ) 对 网 络 的 突 触 权 值 被 最 小 化 。 第 二 ， 它 们 实现 都 很 简单 ， 但 可 能 收敛 很 
慢 。 第 三 ， 它 们 是 相关 的 ， 因 为 通过 时 间 的 反 向 传播 算法 的 信号 流 图 的 表示 ， 能 够 由 实时 递归 
学 习 算 法 的 确定 形式 的 信号 流 图 的 表示 经 转 置 而 得 到 (Lefebvre, 1991; Beaufays and Wan, 
1994)。 

一 些 启发 

在 开始 这 两 种 学 习 算 法 的 描述 之 前 ， 我 们 罗列 一 些 对 于 改进 递归 网 络 训练 的 启发 ， 这 些 训 
练 涉及 梯度 下 降 方法 的 使 用 〈Giles，1996) : 

。 训练 样本 应 该 按照 字典 顺序 排序 ， 最 短 的 符号 字符 串 首先 提交 给 网 络 。 

。 训练 应 该 开始 于 一 个 小 的 训练 样本 集 ， 然 后 随 着 训练 进行 逐步 增加 样本 。 

。 只 有 当 正 在 被 网 络 处 理 的 训练 样本 的 绝对 误差 大 于 某 一 指定 的 标准 时 才 应 该 更 新 网 络 

的 突 触 权 值 。 

。 在 训练 过 程 中 建议 使 用 权 值 衰减 ， 权 值 豪 减 可 作为 复杂 性 正则 化 (第 4 章 讨论 过 ) 的 
一 个 粗略 的 形式 。 

第 一 个 启发 有 特别 重要 的 意义 。 如 果 可 以 实现 的 话 ， 它 提供 减轻 在 采用 梯度 下 降 方法 训练 
递归 网 络 时 出 现 的 消失 梯度 问题 。 这 个 问题 的 细节 在 15. 9 节 讨 论 。 


15.7 通过 时 间 的 反 向 传播 


用 于 训练 一 个 递归 网 络 的 通过 时 间 的 反 向 传播 “BPTT) 算法 是 标准 反 向 传播 算法 的 扩 
展 ? 。 它 可 以 通过 将 网 络 的 时 序 操作 展开 成 一 个 分 层 的 前 馈 网 络 导 出 ， 它 的 拓扑 结构 在 每 个 时 
间 步 增加 一 层 。 

具体 地 ， 让 表示 需要 学 习 时 序 任务 的 递归 网 络 ， 从 时 间 n 开始 一 直到 时 间 n NRR 
对 递归 网 络 N 的 时 序 操作 进行 展开 所 得 的 前 馈 网 络 。 展 开 后 的 网 络 N* 和 初始 网 络 N 的 关系 
WF: 

“1. 对 区 间 (no ,nj 内 的 每 一 个 时 间 步 ,网络 N* 有 一 个 包含 K 个 神经 元 的 层 ，K 是 包含 在 
网 络 NN 中 的 神经 元 的 数量 。 

2. ERAN 的 每 一 层 有 网 络 N 的 每 一 个 神经 元 的 拷贝 。 

3. 对 每 一 个 时 间 步 1E Lon], ARN 中 ! 层 的 神经 元 i 到 1 十 1 层 的 神经 元 ; 的 突 触 连 
接 ， 是 在 网 络 N 中 从 神经 元 i 到 神经 元 7 的 突 触 连接 的 拷贝 。 

这 些 要 点 在 下 面 的 例子 中 解释 。 

例 3 两 神经 元 递归 网 络 的 展开 

考虑 图 15. 9a 所 示 的 两 个 神经 元 递归 网 络 N。 为 简化 表示 ， 省 略 单位 延迟 操作 符 = “。 这 
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个 操作 符 应 该 插 和 人 到 图 15. 9a 所 示 突 触 连接 《包括 自 连 接 环 ) 的 每 一 步 。 通 过 一 步 一 步 地 展开 
网 络 的 时 序 操作 ， 得 到 图 15. 9b 的 信号 流 图 ， 其 中 起 始 时 间 no 二 0。 图 15. 9b 代表 分 层 的 前 馈 
网 络 N* ， 其 中 在 每 一 步 时 序 操作 都 有 新 的 层 加 入 。 机 


Xia 














时 间 步 0 


b) 


图 15. 9 a) 两 个 神经 元 递归 网 络 .N 的 结构 图 ;，b) 网 络 .N 依 时 间 展 开 的 信号 流 图 


依赖 于 使 用 分 回合 训练 或 使 用 连续 〈 实 时 ) 训练， 展开 过 程 的 应 用 导 臻 通过 时 间 的 反 向 伟 
播 两 个 根本 不 同 的 实现 。 下 面 依次 描述 这 两 种 递归 学 习 方法 。 
分 回合 的 通过 时 间 的 反 向 传播 

将 用 于 递归 网 络 训练 的 数据 集 分 割 为 独立 的 回合 ， 每 一 回合 表示 一 个 感 兴趣 的 时 序 模式 。 
S 表示 一 个 回合 的 开始 时 间 ，n 表示 其 结束 时 间 。 在 这 个 回合 里 ， 可 以 定义 代价 函数 


Gro = 15 Deen (15. 34) 
n=n, jes 


其 中 为 网 络 中 指定 期 望 响 应 的 那些 神经 元 标号 j 的 集合 ，ei* 是 该 神经 元 关于 期 望 响应 和 计算 
出 的 实际 输出 之 间 的 误差 信号 。 我 们 希望 计算 网 络 的 敏感 度 ， 即 计算 代价 函数 对 网 络 突 触 权 值 
的 偏 导 数 。 为 此 ， 可 以 使 用 通过 时 间 的 反 向 传播 《back-propagation-through-time，BPTT) # 
法 ， 这 个 算法 建立 在 第 4 章 讨 论 的 标准 反 向 传播 学 习 批量 方式 的 基础 上 。 分 回合 的 BPTT 算法 
进行 如 下 (Williams and Peng, 1990), 

。 首先 ， 对 时 间 区 间 (ns ,ns〉 执 行 单纯 的 数据 前 向 传播 通过 网 络 。 保 存 完 整 的 输入 数据 

记录 、 网 络 状态 〈 即 网 络 的 突 触 权 值 ) 以 及 期 望 响应 。 
。 对 过 去 这 条 记录 执行 一 个 单纯 的 反 向 传播 通过 网 络 ， 计 算 局 部 梯度 


一 9 Coa 
Bim Sy, (15. 35) 
的 值 ， 对 于 所 有 的 JE 四，m<nm<sm 。 这 个 计算 用 公式 
P vin) em ,对 于 nn 二 nn 
人 一 {sot 十 > wade ] ,对 于 no <n <m (15. 36) 
sesh 


进行 ， 其 中 O 是 激活 函数 对 其 自 变量 的 导数 ， 必 ,是 神经 元 j 的 诱导 局 部 域 。 这 里 假 
设 网 络 的 所 有 神经 元 有 同样 的 激活 函数 p(*)。 重 复 使 用 式 (15. 36), ARAL m 出 发 ， 向 
后 一 步 一 步 进 行 直到 时 刻 mn。; 此 处 涉及 的 步 数 与 包含 在 这 个 回合 内 的 步 数 相同 。 
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。 一 旦 执行 反 向 传播 的 计算 回 到 mo 十 1 时 ， 对 神经 元 7 的 突 触 权 值 wz 调整 如 下 : 


fe) Erotal — < 
Aw; = 7 Bw = 1D Stima (15. 37) 


其 中 7 BURBS, tini ENA n 一 1 时 作用 于 神经 元 7 的 第 i 个 突 触 的 输入 。 
比较 刚才 描述 的 分 回合 的 BPTT 的 过 程 和 标准 反 向 传播 学 习 的 集中 方式 ， 可 以 看 出 它们 
根本 的 差别 是 前 者 在 网 络 的 许多 层 里 指定 对 神经 元 的 期 望 响应 ， 因 为 实际 输出 层 在 网 络 的 时 序 
行为 展开 时 被 重复 很 多 次 。 
截断 的 通过 时 间 的 反 向 传播 
为 了 使 用 通过 时 间 的 反 向 传播 的 实时 形式 ， 我 们 用 误差 平方 和 的 瞬时 值 ， 即 


作为 需要 最 小 化 的 代价 函数 。 如 同 标准 反 向 传播 学 习 的 串 行 《随机 〉 模式 一 样 ， 我 们 使 用 代价 
函数 8: 的 负 和 梯度 去 计算 对 于 每 个 时 刻 n 网 络 突 触 权 值 的 适当 调整 量 。 当 网 络 运 行 时 ， 调 整 建立 
在 连续 的 基础 上 。 但 是 为 了 采用 计算 可 行 的 方式 ， 我 们 只 在 一 个 固定 数目 的 时 间 步 内 储存 相关 
的 输入 数据 和 网 络 状 态 的 历史 记录 ， 该 时 间 步 数目 称 为 截断 深度 (truncation depth). WER 
断 深度 用 户 表 示 。 任 何 比 疡 时 间 步 早 的 信息 是 无 关 的 ， 因 此 可 以 省 略 。 如 果 不 截 断 计算 ， 由 此 
容许 回 到 开始 时 间 ， 计 算 时 间 和 储存 要 求 当 网 络 运行 时 会 随时 间 线 性 增长 ， 最 终 达 到 某 点 使 得 
整个 学 习 过 程 成 为 不 可 行 的 。 

算法 的 第 二 种 形式 称 为 截断 的 通过 时 间 的 反 向 传播 〈truncated back-propagation-through- 
time, BPTT(h)) 4% (Williams and Peng，1990)。 神 经 元 j 的 局 部 梯度 定义 为 





; A 
3. =— 2%, hee E (15. 38) 
OU; HH n-h<l<n 
由 此 导出 公式 
o (Vi) ein Ml = n 
Òi = p Coa) >) wa deen xt n-h<l<n (15. 39) 
red 


一 旦 执行 反 向 传播 的 计算 到 达 时 刻 n 一 A 十 1 时 ， 对 神经 元 7 的 突 触 权 值 wz 进行 如 下 调整 : 


Awin 一 了 5 Oj Ti m (15. 40) 


率 参数 y 小 到 足以 确保 权 值 从 一 个 时 间 步 到 下 一 时 间 步 不 会 有 很 大 改变 的 时 候 ， 在 等 式 中 使 用 
wx! 才 是 合理 的 。 

比较 式 (15. 39) 和 式 (15. 36)， 可 以 看 出 与 分 回合 的 BPTT 算法 不 同 ， 误 差 信号 只 有 在 当 
前 时 间 n 才 会 进 和 计算。 这 就 解释 为 什么 不 保存 过 去 期 望 响应 记录 的 原因 。 实 际 上 ， 截 断 的 首 
过 时 间 的 反 向 传播 算法 对 前 期 时 间 步 的 处 理 ， 和 随机 反 向 传播 算法 〈 在 第 4 章 讨 论 ) 对 待 多 层 
感知 器 中 的 隐藏 神经 元 的 计算 是 一 样 的 。 
一 些 实际 考虑 

在 BPTT(h)〉 的 实际 应 用 中 ， 截 断 并 不 像 看 起 来 那样 是 完全 人 为 的 。 除 非 递归 网 络 是 不 稳 
定 的 ， 对 于 导数 9 儿 /3w;, 应 该 收敛 ， 这 是 因为 时 间 上 非常 靠 后 的 计算 对 应 于 更 高 的 反馈 能 力 
(粗略 地 等 于 sigmoid 斜率 乘 以 权 值 ) 进行 的 。 在 任何 情况 下 ， 截 断 深度 A 应 该 大 到 足以 产生 
接近 实际 值 的 导数 。 这 就 要 求 值 h 有 一 个 低 的 下 界 。 例 如 ， 把 动态 驱动 递归 网 络 用 于 引擎 慢 速 
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(idle-speed) 控制 时 ，A 一 30 是 一 个 完成 学 习 任 务 的 相当 保守 的 选择 〈Puskorius $, 1996), 
有 序 导数 方法 

另 一 实际 问题 需要 讨论 。 本 节 讨 论 的 通过 时 间 的 反 向 传播 的 展开 过 程 提供 一 个 利用 相似 层 
随时 间 前 向 处 理 的 级 联 描绘 的 有 用 工具 ， 这 样 可 以 帮助 我 们 深入 理解 过 程 是 如 何 作用 的 。 然 而 
这 个 优点 也 是 产生 缺点 的 原因 。 在 由 很 少 神 经 元 组 成 的 相对 简单 的 递归 网 络 中 过 程 运行 良好 。 
但 是 ， 当 展开 过 程 应 用 到 实际 中 常 遇 到 的 更 一 般 的 结构 时 ， 基 本 公式 ， 特 别 是 式 (15. 39) ， 就 
恋 得 繁 拙 。 在 这 种 情况 下 ， 更 好 的 方法 是 用 Werbos(1990) 描述 的 更 一 般 的 方法 ， 此 时 每 层 的 
前 向 传播 每 一 个 表示 引发 一 个 相应 的 反 向 传播 表示 的 集合 。 这 个 方法 的 优点 是 对 前 向 和 递归 
(反馈 ) 连接 的 相似 处 理 。 

IR BPTT (A) 特殊 形式 的 机 理 , 令 F ,表示 在 节点 1 的 网 络 输出 对 xz 的 有 序 导 数 〈or- 
dered derivative) 。 为 了 导出 反 向 传播 方程 ， 以 相反 的 次 序 考虑 前 向 传播 方程 。 从 每 个 方程 根 
据 下 列 原理 推导 一 个 或 多 个 反 向 传播 表达 式 : 


如 果 a = glb,c)， 那么 Fs = oer, 和 FL, = Sfp, (15. 41) 


Oc 
例 4 式 (15.41) 的 说 明 
为 了 让 有 序 导数 的 概念 清晰 ， 考 虑 下 列 两 个 方程 的 非 线性 系统 ， 
xz, = log u + z 
y= ri +H 3r: 
变量 zx, 在 两 个 方面 影响 输出 ?， 直 接 通过 第 二 个 方程 ， 和 间接 通过 第 一 个 方程 。y 对 rs 的 有 
序 导数 由 包括 zs 对 y 的 直接 和 间接 的 作用 效果 的 总 因果 影响 所 定义 ， 可 表示 如 下 : 


FL = OY 4 8 y 8 = 34 (22) (323) = 34 bar} 7. 
2 O22 OX OL2 


有 序 导 数 方法 的 其 他 期 望 特征 

在 编写 程序 时 ， 对 BPTTCA) 的 有 序 导 数 ， 式 (15. 41) 右 侧 的 每 一 个 有 序 导数 值 被 加 到 左 
侧 的 原来 的 值 上 。 在 这 种 方法 中 ， 适 当 的 导数 从 网 络 中 的 一 个 给 定 的 节点 分 配 到 所 有 以 前 向 方 
式 前 馈 该 节点 的 网 络 其 他 节点 和 突 触 权 值 ， 并 且 对 于 每 一 连接 中 可 能 出 现 的 延迟 做 出 适当 
补偿 。 

式 (15. 41) 描 述 的 简洁 有 序 导数 表达 式 减少 了 对 诸如 时 间 展 开 或 信号 流 图 的 可 视 化 的 需要 。 
在 Feldkamp and Puskorius(1998) 以 及 Puskorius 等 (1996) 中 ， 利用 这 个 过 程 产生 了 实现 
BPTT(A) 算法 的 伪 代 码 。 


15.8 实时 递归 学 习 


本 节 我 们 描述 另 一 种 称 为 实时 递归 学 习 (real-time recurrent learning, RTRL)s 的 学 习 算 
法 ， 在 第 15. 6 节 简 单 描述 过 。 算 法 的 和 名称 来 自 于 下 面 的 事实 ， 完 全 连接 网 络 的 突 触 权 值 调整 
是 实时 的 ， 也 就 是 说 ， 是 在 网 络 继续 执行 它 的 信号 处 理 功能 的 时 候 (Williams and Zipser, 
1989)。 图 15. 10 显示 一 个 递归 网 络 结构 布局 。 它 由 4 个 神经 元 和 7m 个 外 部 输入 组 成 。 网 络 有 
两 个 不 同 的 层 ; 并 置 的 输入 -反馈 层 和 计算 节点 的 处 理 层 。 相 应 地 ， 网 络 突 触 连接 也 是 由 前 馈 
和 反馈 连接 构成 的 。 
网 络 状态 空间 的 描述 由 式 (15. 10) 和 式 (15. 11) 定 义 。 系 统 方程 (15. 10) 重 写成 以 下 扩展 
ÉR: i 
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维 数 为 9 的 
状态 向 量 x,， $ 
C 
偏 置 一 一 > 
SES phy 
Bcf { } 输出 向 量 y,。 





图 15.10 用 于 描述 RTRL 算法 的 完全 连接 递归 网 络 


pwik,) 


Xe = | ow E) (15. 42) 


(wa&,) 
其 中 假设 所 有 的 神经 元 有 相同 的 激活 函数 pg(*)。(g 十 m 十 1) X1 向 量 w 是 递归 网 络 的 神经 元 7 
的 突 触 权 值 向 量 ,， 即 


Wa,j 
w=] ‘|; j=1,2, "sq (15. 43) 


Wo; 


其 中 w,; 和 we 分 别 是 转 置 矩阵 WI 和 Wi 的 第 j 列 。(g 十 m 十 1) Xi 向量 名 定义 为 
8 = | (15. 44) 


EF x 是 gX1 REHE, un 是 Ont DX1 输入 向 量 。u 的 第 一 个 元 素 是 十 1， 对 应 的 mw, 的 
第 一 个 元 素 等 于 应 用 于 神经 元 7 的 偏 置 6;。 

为 表达 简单 起 见 ， 引 人 新 的 矩阵 Ay. Un M 中, ， 分 别 描述 如 下 : 

L Ain 是 状态 向 量 x, 关于 权 值 w 的 偏 导 数 所 构成 的 gX (gq 十 m 十 1) 和 矩阵 : 


Ox . 
jn 一 T, = 2 15. 45 
A;, Bw, j=l q C ) 


2. U nde qX (qt+m+]) 和 矩阵， 除了 第 7 行 等 于 向 量 & 外 ， 其 他 行 都 为 0: 
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0 
U;,, = lease, 了 一 1 2,……9 《15. 46) 

0 
3.0, Æq Xq MAE, CKE 7 个 对 角 元 素 是 激活 函数 对 其 自 变 量 的 偏 导数 ， 可 以 写 
TD, = diag(P (wi) ssp WE) 9 (WE,)) (15. 47) 


有 了 这 些 定义 ， 就 可 以 对 式 (15. 42) 关 于 w 求 导 。 用 微 积分 的 链 式 法 则 ， 得 到 下 列 递归 
公式 : 
Aj 一 下 (WA 十 Ui)，7 了 一 1 29 《15. 48) 
这 个 递归 公式 描述 实时 递归 学 习 过 程 的 非 线性 状态 动力 学 〈 即 状态 演化 ) 。 
为 了 描述 这 个 学 习 过 程 ， 我 们 需要 将 矩阵 Ay. 和 误差 曲面 对 w 的 梯度 相 联系 。 为 此 ， 首 
先 用 度量 方程 (15. 11) 定 义 pX1 误差 向 量 : 
e = d, — y, = d, — Wx (15. 49) 
其 中 p 是 输出 向 量 y, 的 维 数 。 根 据 e 定义 的 平方 误差 瞬间 和 为 


En = Lele, (15. 50) 


学 习 过 程 的 目标 是 极 小 化 由 对 所 有 时 间 n 的 包 求 和 所 得 到 的 代价 函数 ， 即 
Ciota = > En 
为 完成 这 个 目标 ， 使 用 最 陡 下 降 方法 ， eS ERE 可 写 为 


Vw Gou = 3 一 Da Dv 


n 


其 中 Vw E, BE, 对 权 值 矩阵 Ww.) 的 梯度 。 REE. 可 以 继续 使 用 这 个 方程 并 且 得 到 递 
归 网 络 的 突 触 权 值 的 更 新 方程 ， 并 且 不 用 近似 。 但 是 ， 为 了 得 到 一 个 实时 的 训练 递归 网 络 使 用 
的 学 习 算 法 ， 必 须 使 用 一 个 梯度 的 上 时 估计 值 ， 即 Vw ， 这 就 导致 对 最 耳 下 降 方法 的 近似 。 从 
某 种 意义 上 ， 我 们 遵循 了 第 3 章 中 最 小 均 方 (LMS) 算法 相似 的 方法 。 

回 到 式 (15. 50) ， 以 它 作 为 最 小 化 的 代价 函数 ， 求 它 对 权 值 向 量 w 的 微分 ， 得 到 








d En _ OX 二 ;一 vee 
ow = (= *)e, w. (<= “Je, W, Anen j=1,2,°,g (15.51) 
因此 应 用 于 神经 元 j 的 突 触 权 值 向 量 Wj, .的 调整 由 
Awin = 72% = NW: Aj,nen， J = 1,25: 9q (15. 52) 


决定 ， 其 中 7 是 学 习 率 参数 ，Ai* 由 式 (15. 48) 决 定 。 
现在 仅 剩 下 确定 开始 学 习 过 程 的 初始 条 件 。 为 此 令 
Ajo =O 对 于 所 有 j (15. 53) 
这 意味 着 递归 网 络 的 初始 状态 停留 在 一 常态 。 
表 15. 1 概括 实时 递归 学 习 算 法 。 这 里 所 描述 的 算法 公式 可 应 用 到 任意 的 对 其 自 变量 可 微 
的 激活 函数 p(*)。 对 于 特殊 情况 ， 取 双 曲 线 切 线 方程 形式 的 sigmoid 非 线性 函数 ， 我 们 有 
Litt = pia) = tanhlyv,,n) 
All 
p (Vn) 一 ap taa? = sech? (vn) = 1 — zi (15. 54) 


其 中 y EHAN) 的 诱导 局 部 域 ，z， a EE nti 时 刻 的 状态 。 
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表 15.1 实时 递归 学 习 算法 小 结 
HRs 
m 一 输入 空间 维 数 
gq 二 状态 空间 维 数 
p= 二 输出 空间 维 数 
wi 二 神经 元 j 的 突 触 权 值 向 量 , j = 1,2,*…,q。 
初始 化 : 
1. 对 算法 的 突 触 权 值 赋予 从 一 个 均匀 分 布 中 选 出 的 较 小 值 。 
2. 设 状态 向 量 x(0) 的 初始 值 为 x(0) 一 0。 
3. 对 了 = 二 1,2,…,q， 设 Aio 一 0。 


计算 ; 对 nn 二 0,1,2,…, 计算 
en = dn 一 W. Xan 
Awin 一 TVW-Ainen 
Aj = @,CWanAjin + Uja), j= 12,.,g 


Xn AU， 和 ,的 定义 分 别 由 式 (15. 42) 、 式 (15. 45)、 式 (15.46) MRS 47) 给 出 。 


从 真实 梯度 行为 推导 

使 用 瞬时 梯度 Vv 包 意味 着 实时 递归 学 习 算 法 偏离 建立 在 真正 梯度 Vv 名 ou 基础 上 的 非 实时 
算法 。 但 是 ， 该 偏离 和 在 第 4 章 中 使 用 的 训练 多 层 感知 器 的 反 向 传播 算法 很 相似 。 虽 然 实时 递 
归 算 法 不 保证 和 总 的 误差 函数 儿 s(W) STAC W 的 负 梯 度 精 确 一 致 ， 但 实时 和 非 实时 的 
实际 差别 很 小 ， 在 算法 速率 参数 7 减少 时 它们 近似 相等 。 与 真正 梯度 偏离 的 行为 所 导致 的 光 在 
的 最 严重 的 结果 ， 是 观测 的 轨道 (由 绘制 名 对 权 值 矩阵 W 的 元 素 的 图 形 获得 ) 可 能 取决 于 算 
法 产生 的 权 值 改 变 ， 这 也 可 看 作 另 一 个 反馈 源 并 从 而 导致 系统 不 稳定 。 使 参数 7 小 到 让 权 值 变 
化 的 时 间 尺 度 远 小 于 网 络 运行 的 时 间 尺 度 ， 可 以 避免 生成 这 个 效果 。 基 本 上 ， 这 和 第 3 章 中 对 
LMS 算法 提议 的 算法 稳定 性 是 相同 的 。 

例 S RTRL 算法 说 明 

针对 图 15.6 有 两 个 输入 和 一 个 输出 的 完全 递归 网 络 ， 本 例 我 们 提出 RTRL 算法 的 公式 。 
网 络 有 三 个 神经 元 ， 由 例 1 ERE W, W 和 W. 构成 。 

由 于 m= 二 2,g 二 3,p 二 1， 从 式 (15. 44) 可 得 


U2,n 


设 .ws 表示 矩阵 A; BAL 个 元 素 。 利 用 式 (15. 48) 和 式 (15. 52) 分 别 得 到 
AWg.n = 6 din 一 ion)A1 an 


3 
Ajusntl 一 g (vn) SS) wa iid i + dx Ein) 
i=1 


其 中 6% 是 Kronecker delta, BI k=j 时 为 1， 其 他 情况 下 为 0; j,k = 二 1,2,3 和 = 1,2,3 A l= 
1,2,…,6。 图 15. 11 表示 一 个 决定 权 值 调整 Avww., 演 化 的 敏感 度 图 。 注 意 WS iw) GDS 
1,2,3 AW, = {wr) 二 1,2,3 和 /1 二 4,5,6。 并 且 ， 不 要 将 Kronecker delta 和 15.7 WRF 
BPTT 的 局 部 梯度 相 混淆 。 a 
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图 15.11 图 15.6 的 全 连接 递归 网 络 敏 感度 图 。 注意; 标号 为 &., 的 三 个 节点 都 看 作 单 输入 


教师 强制 
递归 网 络 训 练 中 经 常用 到 的 策略 是 教师 强制 (teacher forcing) (Williams and Zipser, 
1989，1995)， 在 自 适 应 性 滤波 中 ， 教 师 强制 称 为 方程 -误差 〈equationrerror) F% (Mendel, 
1995) 。 基 本 上 教师 强制 涉及 在 网 络 的 训练 过 程 中 每 当期 望 响应 可 用 时 ， 在 随后 网 络 动态 行为 
的 计算 中 利用 期 望 响应 〈 即 目标 信号 ) 替代 实际 神经 元 的 输出 。 虽 然 教师 强制 是 在 RTRL A 
法 下 描述 的 ， 它 的 用 法 可 以 应 用 到 另外 的 算法 。 但 是 ， 为 了 让 它 是 可 应 用 的 ， 问 题 中 的 神经 元 
必须 将 它 的 输出 反馈 回 网 络 输入 。 
教师 强制 的 良好 效果 包括 (Williams and Zipser, 1995); 
。 教师 强制 可 以 使 网 络 训练 更 快 。 原 因 在 于 使 用 教师 强制 等 于 假设 网 络 已 经 知道 属于 那 
些 使 用 教师 强制 的 神经 元 的 任务 的 早期 部 分 。 
。 教师 强制 可 以 作为 训练 期 的 校正 机 制 。 例 如 ， 网 络 的 突 触 权 值 可 能 有 正确 的 值 ， 但 是 
由 于 某 种 原因 网 络 可 能 运行 在 状态 空间 的 错误 区 域 。 显 然 在 这 种 情况 下 ， 调 整 突 触 权 
值 是 错误 的 策略 。 
基于 梯度 的 学 习 算 法 使 用 教师 强制 实际 上 是 优化 与 不 用 教师 强制 不 同 的 代价 函数 。 教 师 强 
制 算法 和 无 强制 算法 产生 不 同 的 解 ， 除 非 有 关 的 误差 信号 为 0， 这 时 无 需 学 习 。 


15.9 递归 网 络 的 消失 梯度 


递归 网 络 的 实际 应 用 需要 引起 注意 的 一 个 问题 是 消失 梯度 (vanishing gradient)， 它 和 依 
靠 很 久 以 前 的 输入 数据 用 来 训练 网 络 使 之 在 当前 时 刻 产 生 一 个 期 望 响 应 有 关 。 由 于 组 合 的 非 线 
性 ， 一 个 时 间 上 隔 得 远 的 输入 的 一 个 微小 变化 对 网 络 的 训练 几乎 不 会 产生 影响 。 即 使 时 间 上 隔 
得 远 的 输入 的 大 的 变化 产生 影响 ， 但 影响 不 能 被 梯度 检测 到 ， 这 时 问题 同样 可 能 出 现 。 消 失 梯 
度 问 题 在 一 些 特定 情况 下 使 得 基于 梯度 的 训练 算法 中 长 期 依赖 的 学 习 即 使 不 是 完全 不 可 能 也 是 
变 得 很 困难 。 

在 Bengio 等 (1994) 中 ， 对 许多 实际 应 用 曾经 讨论 过 ， 在 有 噪声 的 情况 下 需要 递归 网 络 
能 够 存储 任意 时 间 长 度 的 状态 信息 。 在 递归 网 络 状 态 变量 中 长 期 存储 的 有 限 位 的 信息 称 为 信息 
4% 4 (information latching) 。 信 息 锁 存 必须 很 鲁 棒 ， 不 能 被 与 当前 学 习 任 务 无 关 的 事件 删除 . 
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用 特殊 术语 ， 我们 可 以 陈述 如 下 (Bengio #, 1994); 


如 果 网 络 状态 包含 在 一 个 双 曲 吸引 子 的 压缩 吸引 集中 ， 则 递归 网 络 的 重 棒 性 信息 锁 存 就 可 
以 实现 。 


双 曲 吸引 子 的 概念 在 13 章 讨论 过 。 一 个 双 曲 吸引 子 的 压缩 集 是 在 吸引 盆 的 一 个 点 集合 ， 
在 这 些 点 处 Jacobi 矩阵 的 所 有 特征 值 的 绝对 值 小 于 1。 这 就 意味 着 如 果 递 归 网 络 的 状态 x, 在 一 
个 双 曲 吸引 盆 ， 而 不 在 压缩 吸引 集中 ， 那 么 在 x, 周围 的 一 个 不 确定 球 〈ball of uncertainty) 
的 大 小 会 随时 间 而 指数 增长 ， 如 图 15. 12a 所 示 。 所 以 ， 对 于 递归 网 络 输入 的 小 扰动 (噪声 ) 
能 够 将 轨道 推 向 另 一 个 (可 能 是 错 的 ) 吸引 盆 。 但 是 如 果 状 态 x, 继续 保持 在 双 曲 吸引 子 的 压 
缩 吸引 集中 ， 这 时 在 输入 x, 能 够 找到 一 个 有 界 范围 使 得 x, 停留 在 吸引 子 的 一 定 距 离 之 内 ， 如 
图 15. 12b Bras. 





P: 双 曲 吸引 子 
状态 %, 的 域 BPH S| sh 状态 x 的 域 
a3 六 P 的 压缩 吸引 集 a 


图 15.12 消失 梯度 问题 图 示 : a) Rx, 在 吸引 盆 B 内 但 不 在 压缩 吸引 集 YA; b) 状态 x, 在 压缩 
RIR yA 


长 期 依赖 


E aei 的 鲁 棒 性 信息 锁 存 的 作用 ， 我 们 注意 在 时 刻 n 应 用 到 递归 网 络 的 


权 值 向 量 w 由 
re) Srotal 


T7 ow 
调整 ， 这 里 7 是 学 习 率 参数 。 d Cori /OW 是 代价 函数 名 wa 关于 w 的 梯度 。 代价 函数 加。 通常 由 
Crotal 5 D | di,» — Yi,n | 3 
定义 ， 其 中 di,; 是 期 望 响 应 ，y,, 是 网 络 对 第 i 个 模式 在 时 间 n 时 的 实际 响应 。 因 此 ， 利 用 这 两 
个 方程 ， 可 以 写成 如 下 形式 : 
yn 9 
Aw, = 121 (222) (di 一 Yin) = 12 (a 
其 中 在 第 二 行使 用 了 微 积分 的 链 式 法 则 ; 状态 向 量 x,, 属 于 训练 样本 的 第 ; 个 模式 。 在 应 用 诸 
如 通过 时 间 的 反 向 传播 算法 的 时 候 ， 代 价 函 数 的 偏 微分 根据 在 不 同时 间 标 号 的 独立 权 值 进行 计 
算 。 可 以 扩展 方程 (15. 55) 的 结果 如 下 : 
9 ign 
aw, = 1) (We > een) Cd 一 Yin) 
第 二 次 应 用 微 积分 的 链 规则 得 到 
Aw, = 9d) (282) (Se x est) ) din = Yin) (15. 56) 


AW, = 





OXi,n SE 
xe ) Cin — Yin) (15. 55) 





第 15 章 动态 驱动 递归 网 络 . 521 


根据 状态 方程 (15. 2) 我 们 认识 到 有 
Ki,n = (x, m), lk<n 
因此 我 们 可 以 把 x.x RENERE RRAC) 扩展 到 nn 一 & TATA AY Jacobi AH, BP 
OXin 8 中 xu) _ 
OX: OXi,k 
在 Bengio 等 (1994) 中 ,证 明 如 果 输 入 u 使 得 递归 网 络 在 时 间 n==0 之 后 鲁 棒 地 锁 存 在 双 曲 
吸引 子 肉 ， 则 Jacobi 矩阵 Jen AT k 是 指数 递减 的 ， 因 此 有 
det(jJ se) 一 0 当 一 co 对 于 所 有 的 了 (15. 58) 
式 (15.58) 的 含义 是 网 络 的 权 值 向 量 w 的 一 个 微小 变化 在 最 近 的 过 去 〈 即 接近 当前 时 间 步 2 的 
k 的 值 ) 有 作用 。 在 时 间 ”时 可 能 存在 权 值 向 量 w 的 调整 aw 使 得 x, 移动 到 一 个 更 好 的 吸引 
盆 ， 但 代价 函数 色 。 w 的 梯度 并 不 携带 该 信息 。 
作为 结论 ， 假 疫 递归 网 络 的 双 曲 吸引 子 存 储 状 态 信 息 时 使 用 基于 梯度 的 学 习 ， 我 们 可 以 发 
现下 列 两 种 情况 之 一 : 


。 在 输入 信号 具有 嗓 声 时 网 络 不 是 便 棒 的 。 
。 网 络 不 能 发 现 长 期 性 依赖 (即时 间 间 隔 比 较 长 的 输入 和 目标 输出 之 间 的 关系 )。 


减缓 消失 梯度 问题 的 二 阶 方法 

基于 梯度 的 学 习 算 法 的 运行 完全 依赖 于 一 阶 信息 即 Jacobi 和 矩阵。 因而 它们 不 能 充分 运 
用 训练 数据 的 信息 内 容 。 为 了 提高 在 训练 数据 中 包含 的 信息 的 使 用 从 而 为 消失 梯度 问题 提供 补 
救 ， 我 们 需要 向 二 阶 方法 寻求 帮助 。 在 这 一 背景 下 ， 我 们 具有 两 个 选择 ， 

1. 我 们 能 利用 二 阶 最 优化 技术 ， 如 在 第 2 章 和 第 4 章 讨 论 过 的 拟 牛 顿 法 、 
Levenberg-Marquardt 法 以 及 共 轿 梯度 法 等 。 尽 管 这 些 非 线 性 最 优化 算法 已 经 证 明了 其 有 效 性 ， 
但 它们 常常 收敛 到 可 怜 的 局 部 极 小 点 ”。 

2. 我 们 能 够 利用 非 线 性 逐次 状态 估计 方法 ， 这 在 第 14 章 中 讨论 过 。 在 神经 网 络 的 训练 
中 ， 完 成 了 两 个 功能 : 

。 神经 网 络 中 权 值 的 演化 是 以 逐次 方式 进行 的 。 

。 关于 训练 数据 的 二 阶 信息 是 以 预测 -误差 协 方 差 矩 阵 的 形式 提供 的 ， 这 也 将 保持 并 逐次 

演化 。 

在 Puskorius and Feldkamp(2001) Feldkamp “ (2001), Prokhorov(2006, 2007) 报告 
的 多 方面 工作 中 说 明了 形成 二 阶 神经 网 络 训练 方法 基础 的 非 线性 逐次 状态 估计 过 程 是 现实 而 有 
效 的 ， 可 作为 面向 批量 的 非 线性 最 优化 技术 的 替代 方法 。 相 应 地 ， 从 此 之 后 我 们 将 注意 力 集中 
于 利用 非 线 性 逐次 状态 估计 过 程 来 训练 递归 多 层 感 知 器 。 


15.10 ”利用 非 线 性 逐次 状态 估计 的 递归 网 络 监督 学 习 框 架 


为 了 描述 非 线性 逐次 状态 估计 器 是 如 何在 监督 方式 下 训练 递归 网 络 的 ， 考 虑 围绕 上 只有 ;个 
突 触 权 值 和 z 个 输出 节点 的 多 层 感 知 器 建立 的 递归 网 络 。 用 ”来 记 网 络 监 督 训练 的 每 一 时 间 
步 ， 令 向 量 w 记 时 间 步 ”时 计算 的 网 络 突 触 权 值 的 全 部 集合 。 例 如 ， 我 们 可 以 这 样 构造 向 量 
w,， 首 先 将 和 第 一 隐藏 层 神经 元 1 相关 联 的 权 值 放置 在 最 上 面 ， 然 后 是 神经 元 2 的 权 值 ， 继 续 
这 一 方式 直到 完成 所 有 第 一 隐藏 层 的 神经 元 ;然后 我 们 对 网 络 中 第 二 和 其 他 隐藏 层 做 同样 的 工 
作 直 到 所 有 网 络 权 值 都 以 刚刚 讨论 的 顺序 体现 在 向 量 w 中 。 

有 了 逐次 状态 估计 的 思想 ， 训 练 下 的 网 络 的 状态 空间 模型 由 下 面 的 模型 对 〈 参 见 图 





可。 (15. 57) 
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15.13) 来 定义 ， 
1. RA KS) 模型 ， 它 是 由 下 面 的 随机 行走 方程 来 描述 的 
Win = Wit On (15. 59) 
ASR Fo 是 高 斯 白 噪 ， 均 值 为 0， 协 方差 矩阵 为 Q.， 在 系统 模型 中 使 用 它 是 为 了 退火 
(anneal) 在 时 间 上 的 网 络 监督 训练 。 在 训练 的 早期 阶段 ， 采 用 大 的 协 方差 矩阵 Q. 来 鼓励 监督 
学 习 算 法 逃离 局 部 极 小 点 ， 然 后 它 渐渐 地 衰减 到 有 限 的 小 值 。 
2. 测量 模型 ， 由 下 面 的 方程 描述 
d, = b(w,.v,.u,) FU, (15. 60) 
其 中 新 的 单元 定义 如 下 : 
。 d, 是 可 观测 的 。 
。 v, 是 表示 网 络 中 递归 节点 激活 的 向 量 ， 其 元 素 以 和 权 值 向 量 w, 一 致 的 顺序 列 出 ; 此 
后 ， 称 w 为 内 部 状态 Cinternal state), 
。 uo 是 记 作 用 于 网 络 的 输入 信号 的 向 量 ， 即 u, 是 作用 于 网 络 的 驱动 力 (driving force), 
。 v, 是 记 破 坏 向 量 d, 的 测量 噪声 的 向 量 ; 它 假设 为 多 变量 白 噪 过 程 ， 其 均值 为 0， 具 有 
对 角 协 方差 矩阵 R, 。 品 声 源 来 自 于 实际 获得 d 的 途径 中 。 
在 式 (15. 60) 中 给 出 的 向 量 值 测量 函数 bC ,*,，) 说 明了 从 输入 到 输出 层 的 多 是 感知 器 的 总 体 
非 线 性 性 ; 它 是 递归 网 络 状 态 空 间 模型 仅 有 的 非 线 性 源 。 

在 所 关心 的 状态 的 范围 内 ， 在 网 络 的 监督 训练 过 程 中 这 个 概念 自然 地 突出 了 两 个 重要 的 
WE: 

1. 外 部 可 调整 状态 ， 在 通过 监督 训练 作用 在 网 络 权 值 的 调整 上 得 到 体现 一 -因此 在 式 
(15. 59) 和 式 (15. 60) 描 述 的 状态 空间 模型 中 包含 了 权 值 向 量 w, 。 

2. 内 部 可 调整 状态 ， 它 由 递归 节点 激活 向 量 w 来 表示 ; 这 些 激活 值 是 在 当前 构造 的 监督 
训练 过 程 范 围 之 外 的 ， 这 也 是 为 什么 向 量 w 仅仅 包含 在 式 (15. 60) 的 测量 模型 中 的 原因 。 外 部 
作用 驱动 力 〈 输 入 向 量 ) n, JARE o 和 围绕 多 层 感 知 器 的 全 局 反馈 是 时 间 ” 上 v 演化 的 
原因 。 


输入 向 量 
u, 











递归 网 络 激活 
Va 
图 15.13 在 监督 训练 下 递归 网 络 内 在 动态 的 非 线 性 状态 空间 模型 


利用 扩展 卡尔 曼 滤 波 器 的 监督 训练 框架 描述 

给 定 训 练 样本 {wu,d,) 半 ;， 感 兴趣 的 问题 是 如 何 通过 逐次 状态 估计 器 的 方式 来 监督 训练 递 
归 多 层 感知 器 (RMLP)。 由 于 式 (15. 60)，RMLP 是 非 线性 的 ， 逐 次 状态 估计 器 将 不 得 不 对 应 
于 非 线性 。 带 着 这 样 的 要 求 ， 我 们 考虑 如 何 将 第 14 章 学 习 过 的 扩展 卡尔 受 滤波 器 (EKT) 用 
于 完成 这 一 工作 。 
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从 我 们 目前 讨论 的 目的 上 看 ， 在 表 15. 2 中 总 结 的 EKF 算法 的 有 关公 式 是 如 下 的 两 个 ， 其 


中 利用 了 式 (15. 59) 和 式 (15.60) 的 状态 空间 
模型 的 术语 。 
1. 革新 过 程 Cinnovations process), XH 
a, = d, — bs vm) C15. 61) 
其 中 期 望 (目标 〉 响 应 d, 扮演 着 EKF “a 
观测 性 ”的 角色 。 
2. 权 值 (状态 ) 更 新 ， 定 义 为 
Wi = Wari 十 Gig, (15. 62) 
Bhs. FETE fal n BY RMLP 权 值 向 量 w 
的 预测 CE) 估计 ， 给 定 包含 时 间 ”一 1 的 期 
望 响应 ， 刘 ,1 ,是 接受 到 观测 值 d, 后 w 的 滤波 
(更 新 ) 估计 。 和 矩阵 G, 是 卡尔 曼 增益 ， 它 是 
EKF 算法 的 积分 部 分 。 
检查 RMLP 的 基本 操作 ,我们 发 现 
p( 人 wa) 是 RMLP 由 其 “ 老 的 ” 权 
fA E en n 和 响应 于 输入 向 量 凤 的 内 部 状 
Av. 产生 的 实际 输出 向 量 y),.。 因 此 可 以 重 
写 式 (15. 61) 和 式 (15.62) 的 组 合 为 单一 
方程 
Wain = aiea +G, Cd, — ya) (15. 63) 
在 这 一 公式 的 基础 上 ， 我 们 现在 可 以 画 出 作 
为 两 个 形成 闭 递 归 反 馈 系 统 的 互相 耦合 分 量 
的 RMLP 的 监督 训练 ， 如 图 15. 14 所 示 。 
六 输入 
向 量 EEY 


a) 


训练 样本 
T={u,-d,3 








预期 期 望 响应 =y， K 


表 15.2 RMLP 监督 训练 的 EKF 算法 小 结 
i RRA, 
T={m, data 
其 中 uw 是 作用 于 RMLP 的 输 和 向量 ，d 是 相应 的 期 望 响 应 。 
RNLP 和 卡尔 受 滤 波 器 : 参数 和 变量 


b(:,，,*) : 向 量 值 测量 函数 

B : RENEE 

Wa : FE n 的 权 值 向 量 

Wa fant ; 权 值 向 量 的 预测 估计 

Wala : 权 值 向 量 的 滤波 估计 

Ya : RMLP 中 递归 节点 激活 向 基 
Yn : 响应 于 输入 向 量 w 而 产生 的 RMLP 的 输出 向 量 
Q. :动态 噪声 o 的 协 方差 矩阵 
Q. : WERE v, 的 协 方差 矩阵 
G, : 卡尔 曼 增 益 

Paj ni :预测 误差 协 方差 矩阵 

Pain : 滤波 误差 协 方差 矩阵 
HE: 

Xf n=l, 2, e, 计算 如 下 : 


Gr =P, a1BT [Bp Ph, n1 BE 十 Qi 

Gn = dp — ba (Walini Yno Un ) 

Wa [n = Wa | n1 Gm 

Wid lj n= Vaja 

Py | a = Pa) 1 Ga BaP a -1 

Patt n = Paint Quin 

初始 化 : 

Wi1o 一 EFwi] 

P, io 一 6 1T， 其 中 5 是 小 的 正常 数 ， I 是 单位 矩阵 。 


实际 输出 向 量 





| Wan 





图 15. 14 包含 RMLP 和 EKF 的 闭 递归 反馈 系统 ，a) RMLP, PA, o TEMA Ru, 上 来 产生 


输出 向 量 y,; b) EKF， 提 供 了 预测 dpa 一 


%， 运 行 在 期 望 响 应 由 上 来 产生 滤波 权 值 向 量 锡 ,二 


色 ,t11a， 从 而 为 下 一 次 迭代 准备 闲 递归 反馈 系统 


1. 图 的 顶部 通 出 了 部 分 从 网 络 角度 看 的 监督 学 习 过 程 。 权 值 向 量 被 设 为 其 老 的 《预测 ) 
w, ，RMLP 计算 相应 于 输入 向 量 o 的 实际 输出 向 量 y,。 因 此 ， RMLP 给 EKF 提供 了 y 


作为 观测 值 一 一 4,,-; 的 预测 估计 。 


2. 图 的 底部 画 出 了 EKF 作为 训练 过 程 的 便捷 器 (facilitator) 的 角色 。 设 ån = ya 
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EKF 通过 在 当前 期 望 响应 d, 上 运行 来 更 新 权 值 向 量 的 老 的 估计 。 权 值 向 量 的 滤波 估计 CB 
win) AMARAS. 63) 来 计算 。 这 样 通过 EKF 计算 的 病 ,1 ,被 提供 给 RMLP 作为 单位 时 
间 延 迟 模块 。 

有 了 等 于 单位 矩阵 的 转移 矩阵 ， 如 式 (15. 59) 所 证 ， 我 们 可 以 为 下 一 次 迭代 设 冯 ,11 1 等 于 
育 ,1。。 这 一 等 式 允 许 重复 监督 训练 直到 训练 终止 。 

注意 在 图 15. 14 的 监督 学 习 框 架 中 ， 训 练 样本 了 二 {vu,,d,) 是 RMLP 和 EKF 之 间 的 分 割 : 
输入 向 量 由 作用 在 RMLP 上 作为 激发 ， 期 望 响应 d, 作用 在 EKF 上 作为 观测 ， 它 是 独立 于 隐 
RRE RA) 向 量 w, 的 。 

在 第 14 章 中 ,我 们 强调 作为 卡尔 曼 滤 波 器 ， 其 变量 和 扩展 的 预测 器 -修正 器 性 质 这 一 内 在 
特性 。 根 据 这 一 性 质 ， 检 查 图 15. 14 的 块 状 图 ， 我 们 可 以 做 如 下 陈述 : 

递归 神经 网 络 的 训练 完成 预测 器 的 角色 ;， 而 扩展 卡尔 曼 滤 波 器 的 监督 学 习 完 成 修正 器 的 
角色 。 

因此 ,在 卡尔 有 曼 滤波 器 对 逐次 状态 估计 的 传统 应 用 中 ， 预 测 器 和 修正 器 隐藏 在 卡尔 曼 滤 波 
器 自身 中 ， 在 监督 训练 的 应 用 中 ， 这 两 个 角色 在 递归 神经 网 络 和 扩展 卡尔 曼 滤 波 器 之 间 被 分 割 
开 。 这 样 的 监督 学 习 中 的 责任 分 制 很 好 地 对 应 了 在 图 15. 14 中 训练 样本 了 的 输入 和 期 望 响应 元 
素 的 分 割 。 
EKF 算法 

为 了 利用 EKF 算法 作为 监督 学 习 任 务 的 便捷 器 ， 我 们 需要 通过 重新 训练 式 (15. 60) 非 线性 
部 分 的 Taylor 展开 的 一 阶 项 来 线性 化 式 (15. 60) 的 测量 方程 。bCw; ovu) 是 唯一 的 非 线性 源 ， 


我 们 用 下 式 逼 近 式 (15. 60): 
d, = B,w, Hv, (15. 64) 


其 中 B, 是 线性 化 模型 的 pXs 测量 延 阵 。 线 性 化 过 程 包括 计算 RMLP 的 户 个 输出 对 其 * 个 权 值 
的 偏 导 数 ， 得 到 矩阵 














Fam b n ab] 
OW, OW Ow, 
Bh dba .ob 
B= |dw dw, Ow, (15. 65) 
Ob, Əb, ... bp 
Low OW? ow, | 
其 维 数 是 pXs。 认 识 到 权 值 向 量 w 的 维 数 是 *， 则 有 和 矩阵 积 Bw 是 pX1 向 量 ,， 这 和 观测 值 d 的 


维 数 很 好 地 匹配 。 

在 blw,v, ,uw,) 中 的 向 量 w 保持 相同 的 常数 值 ， 在 式 (15. 65) 中 时 间 步 ”被 省 略 了 用 来 简化 
RIA. 方程 中 6;,i 王 1,2,"…,p， 记 向 量 函 数 bCw,,v,,u,) 的 第 i 个 元 素 。 根据 第 14 章 的 式 
(14.70)， 方 程 右 端 项 的 偏 导 数 在 Wa = We EGY, BPW, ERE w 在 时 间 ” 上 的 预 
测 ， 给 定 包含 时 间 ”一 1 的 期 望 响应 。 

实际 上 ， 式 (15.65) 的 偏 导数 使 用 通过 时 间 的 反 向 传播 CBPTT) 或 者 实时 递归 学 习 
(RTRL) 算法 来 计算 。 事 实 上 ，EKF 算法 建立 在 这 两 个 算法 的 一 个 或 其 他 算法 基础 上 ， 这 两 
个 算法 已 在 15.7 节 和 15. 8 节 中 描述 过 。 这 里 的 意思 是 b 必须 是 递归 节点 激活 的 函数 ， 这 在 式 
(15. 60) 的 测量 方程 中 说 明了 。 
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式 (15. 59) 的 状态 演化 方程 是 线性 的 ， 因 此 它 不 受 测量 方程 线性 化 的 影响 。 因 此 ， 递 归 网 
络 的 线性 状态 空间 模型 允许 定义 在 式 (15.59) 和 式 (15. 64) 的 EKF 的 应 用 。 


解 耦 扩展 卡尔 曼 滤 波 器 


在 表 15. 2 中 总 结 扩展 卡尔 曼 滤 波 器 (EKF) 的 计算 需要 ， 主 要 是 在 每 个 时 间 步 ”存储 和 
更 新 滤波 误差 协 方差 矩阵 P,, 。。 对 于 包含 p 个 输出 节点 和 s 个 权 值 的 递归 神经 网 络 而 言 ，EKF 
的 计算 复杂 度 是 OC(ps’)， 其 存储 需求 是 OCs:)。 对 大 的 s， 这 些 需 求 可 能 是 高 要 求 。 在 这 种 情 
况 下 ， 我 们 可 以 通过 解 耦 扩展 卡尔 曼 滤 波 器 (DEKF) 作为 计算 资源 合适 管理 的 实际 补正 
(Puskorious and Feldkamp, 2001). 

DEKF 的 基本 思想 是 忽视 递归 神经 网 络 确定 权 值 估计 之 间 的 交互 作用 。 这 样 可 控制 的 多 个 
0 被 引入 到 协 方差 矩阵 Pi 中。 更 具体 地 ， 
如 果 网 络 的 权 值 以 这 样 的 方式 解 耦 ， 我 们 创 
建 相互 排斥 的 权 值 组 ， 则 协 方差 矩阵 Prin t 
造成 如 图 15. 15 所 示 的 对 角 块 形式 。 

S g 记 指定 的 以 刚刚 描述 的 方式 创建 的 
不 相连 权 值 组 个 数 。 因 此 ， 当 i 二 1,2,…， 
E， 令 

Wa = 第 i 组 的 滤波 权 值 向 量 

P 外 一 第 ;组 滤波 误差 协 方差 矩阵 的 子 集 

G? = 第 :组 的 卡尔 曼 增 益 和 矩阵 

对 DEKF 中 的 其 他 元 素 也 这 样 做 。 滤 波 图 15. 15 属于 解 耦 卡尔 曼 滤 波 器 (DEKF) 的 滤波 误差 


























器 权 值 向 量 WS? 的 连接 形成 总 体 滤波 权 值 向 te 

A A a (DD) © p meri nln s A aN t= 1, Sods 
Bing I ED T GY PARAE DERT I 4。 随 着 我 们 使 不 相连 权 值 组 的 数目 变 大 ， 
素 应 用 相似 的 记号 。 根 据 这 些 新 的 记号 ， 将 在 协 方差 矩阵 P, ,中 创建 了 更 多 的 0; ATE 
DEKF 算法 重 写 为 如 下 对 第 i 个 权 值 组 的 说 ,矩阵 P,1, 变 得 更 稀 琉 。 因 而 计算 负担 变 少 
RF, 了 ， 但 状态 估计 的 数值 精确 度 下 降 了 


=1 
GP = PRB] SBP PL BP)? +98 | 


ai? Beata ual uy 2 
WO, = WP + G? a 
MA = Wire 
PY, = as PS (= GY? B? Poa 
Po a= — KP + Q°, 
DEKF 算法 的 初始 化 以 前 面 在 EKF 算法 的 表 15. 2 描述 的 方式 进行 
DEKF 的 计算 需要 假设 为 如 下 的 阶 : 


计算 复杂 度 : O(p's +p Is) 
存储 需要 : O(s) 


其 中 5, 是 组 i 中 状态 的 大 小 ，s 是 总 体 状态 大 小 ; p 是 输出 节点 数 。 依 赖 于 不 相连 组 个 数 g 
DEKF 的 计算 需要 可 以 比 EKF 显著 减 小 。 
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EKF 的 总 结 批注 

利用 EKF 作为 递归 神经 网 络 监督 训练 逐次 状态 估计 器 的 有 吸引 力 的 特征 是 其 基本 算法 结 
梅 〈 因 而 其 执行 ) 相对 简单 ， 正 如 表 15. 2 的 总 结 所 证 。 然 而 ， 它 有 如 下 两 个 实际 局 限 

1. EKF 需要 线性 化 递归 神经 网 络 向 量 测量 函数 bCw Varun) o 

2. 依赖 于 权 值 向 量 w 的 大 小 《〈 即 状态 空间 的 维 数 ) ， 我 们 可 能 必须 利用 DEK FF 来 减少 计算 
复杂 度 和 存储 需要 。 然 而 这 一 实际 问题 是 我 们 因此 牺牲 了 计算 精确 度 。 

我 们 可 以 通过 利用 无 导数 非 线 性 逐次 状态 估计 器 来 回避 第 一 个 局 限 ， 这 在 下 面 讨论 。 
利用 无 导数 逐次 状态 估计 器 做 神经 网 络 的 监督 训练 

在 第 14 章 中 ， 我 们 讨论 了 数值 积分 卡尔 受 滤 波 器 (Arasaratnam 和 Haykin，2009) ， 其 形 
成 基于 称 为 数值 积分 规则 (Stroud, 1971; Cools, 1997) 的 数值 方法 。 类 似 于 EKF， 数 值 积 
分 卡尔 曼 滤 波 器 (CKF) 是 贝 叶 斯 滤波 器 的 逼近 实现 ; 然而 ， 在 理论 背景 下 ，CKF 是 逐次 状 
态 估计 的 最 优 非 线性 滤波 器 。CKF 具有 一 些 独 有 的 性 质 ， 

1. CKF 是 比 EKF 对 贝 叶 斯 滤波 器 更 加 数值 精确 的 允 近 器 。 它 完全 保留 了 状态 的 包含 在 观 
测 值 中 的 二 阶 信息 。 

2. CKF 是 无 导数 的 ; 因此 ， 没 有 线性 化 递归 神经 网 络 测量 矩阵 的 需要 。 

3. 最 后 但 不 限于 这 几 点 ， 数 值 积分 规则 被 用 于 允 近 时 间 更 新 积分 ， 这 包含 了 后 验 分 布 和 
所 有 其 他 高 斯 环境 下 运行 的 贝 叶 斯 滤波 器 形式 的 积分 公式 ;作为 一 个 规则 ， 积 分 比 微分 好 ， 因 
为 其 “平滑 ”人 性质。 

根据 这 些 性 质 ， 可 以 说 CKF 是 递归 神经 网 络 监 督学 习 的 有 高 度 吸 引力 的 选择 。 将 在 
15. 11 节 中 描述 的 实验 包含 了 混沌 吸引 子 的 动态 重 构 ， 说 明了 CKF 比 EKF 以 及 另 一 个 称 为 中 
心 差分 卡尔 曼 滤 波 器 (CDKF)* 的 无 导 数 逐 次 状态 估计 器 更 好 的 性 能 。N6rgaard 等 (2000) 
的 CDKF， 通 过 用 基于 Stirling 公式 的 展开 来 代替 权 值 向 量 当 前 估计 附近 非 线 性 测量 方程 的 
Taylor 级 数 展开 来 推导 ， 在 指定 区 间 上 插 人 分 析 函 数 。 在 一 维 情况 下 ， 可 通过 相应 地 替换 
Taylor 展开 的 一 阶 和 二 阶 偏 导 数 为 一 阶 和 二 阶 中 心 差分 来 得 到 Stirling 公式 *。 然 后 ,一 旦 测 
景 方程 的 逼近 线性 化 在 多 维 设置 下 推导 ，CDKF 算法 遵循 卡尔 曼 滤 波 器 理论 。 原 始 的 CDKF 
算法 在 Norgaard 等 〈2000) 中 描述 ， 采 用 方 根 滤波 来 提高 数值 精确 度 ;， 这 一 过 程 在 第 14 章 卡 
尔 曼 滤波 的 上 下 文中 描述 过 。 


15.11 计算 机 实验 : Mackay-Glass 吸引 子 的 动态 重 构 


Mackey-Glass 吸引 子 是 Mackey and Glass(1977) 在 模型 化 人 体 血 液 细胞 动态 构成 时 首先 
形成 的 。 它 通过 下 面 单一 的 连续 时 间 微 分 方程 来 描述 ， 


d AX ar 
dj br, 15. 66 
a bx Tipe, ¢ ) 


其 中 上 记 连 续 时 间 ， 系 数 a=0.2 和 0 一 0.1， 时 间 延 迟 At 一 30。 正 式 意义 上 Mackey-Glass 吸引 
子 具 有 无 限 多 的 自由 度 ， 因 为 我 们 需要 连续 时 间 区 间 上 的 函数 z(t) 的 初始 值 。 然 而 ， 它 行为 
上 像 是 具有 有 限 维 数 的 奇异 吸引 子 。 

为 了 数值 上 解 式 (15. 66) ， 我 们 利用 四 阶 Runge-Kutta 方法 (Press 等 ，1988)，6s 的 取样 
周期 ， 初 始 条 件 x 二 0.9，0 志 过 At， 其 中 如 通常 一 样 ，xn 记 离 散 时 间 。 我 们 因此 获得 长 度 
1000 的 时 间 序 列 ， 前 一 半 用 于 训练 ， 剩 下 的 用 于 测试 。 给 定 混沌 吸引 子 ， 我 们 回顾 第 13 章 ， 
下 一 个 数据 样本 zn+: 能 由 恰当 选择 的 时 间 序 列 {Tay Te v Ta Ld, 2 9 Tn [dllr} 来 预测 ， 其 中 de 
和 分 别称 为 嵌入 维 数 (embedding dimension) Fl RA 3£3& (embedding delay)。 对 于 混沌 
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Mackey-Glass AS, de Mr 分 别 选 为 7 和 1。 

递归 多 层 感 知 器 (RMLP) 被 证 明了 在 学 习 时 间 相 关 信 号 时 是 数值 鲁 棒 的 。 对 这 个 实验 ， 
我 们 执行 一 个 具有 ? 个 输入 〈 表 示 观 测 时 间 序 列 的 嵌入 ) 1 个 输出 和 一 个 具有 5 个 神经 元 的 自 
循环 隐藏 层 。 因 此 ，RMLP 具有 总 共 71 个 突 触 权 值 (包含 了 偏 置 参 数 )。 输 出 神经 元 利用 线性 
激活 函数 ， 所 有 的 隐藏 神经 元 利用 双 曲 正切 函数 : 

pv) = tanh(v) 

三 个 算法 的 方 根 方案 被 用 来 训练 RMLP:， 扩展 卡尔 曼 滤波 器 ， 中 心 差分 卡尔 曼 滤 波 器 ， 以 
及 数值 积分 卡尔 曼 滤 波 器 。 为 了 展开 神经 网 络 的 递归 循环 ， 我 们 使 用 切断 深度 上 一 1， 对 这 一 
实验 是 充分 的 。 而 且 ， 对 EKF 算法 ， 我 们 使 用 反 向 传播 算法 来 计算 非 线性 测量 函数 b, 的 偏 导 
数 ， 使 用 15.7 节 中 描述 的 过 程 。 

对 所 有 三 个 算法 ， 每 次 运行 使 用 10 个 回合 来 训练 RMLP。 每 个 回合 从 包 食 107 个 时 间 步 
的 长 子 序列 中 获得 ， 从 随机 选择 点 开始 。 更 精确 地 说 ， 每 个 回合 由 100 个 样本 组 成 ， 是 通过 一 
个 长 度 为 8 的 窗口 在 子 序 列 上 滑动 而 得 的 。RMLP 的 权 值 被 初始 化 为 0 -均值 高 斯 分 布 ， 其 对 
角 协 方差 矩阵 是 107 XL, HF L es Xs 单位 矩阵 。 

为 了 以 公平 方式 比较 CKF 训练 的 RMLP 和 CDKF, EKF 训练 的 RMLP， 我 们 做 了 50 次 
独立 训练 。 为 了 测量 从 500 个 时 间 索 引 开 始 的 100 个 时 间 步 预测 的 性 能 ， 我 们 使 用 总 体 平 均 黑 
积 绝对 误差 ， 由 下 式 定 义 


50 n 
6 = LY) (ar ars n= 1,2,100 
r=1 i=] 


其 中 do? 是 时 间 i 对 第 7 次 运行 的 期 望 响 应 ， 25 
ao 是 在 RMLP 的 输出 端 计算 得 到 的 估计 。 
长 期 累积 预测 误差 是 随时 间 ”而 增长 的 函数 。 

如 已 经 指出 的 那样 ， 在 这 个 实验 中 使 用 
了 贝 叶 斯 滤波 器 的 三 个 不 同 逼近 : 

。 扩展 卡尔 曼 滤 波 器 (EKF) 

。 中 心 差 分 卡尔 曼 滤 波 器 (CDKF) 

。 数值 积分 卡尔 曼 滤 波 器 (CKF) 

实验 结果 在 图 15. 16 中 给 出 ， 其 中 画 出 ete 
了 动态 重 构 的 总 体 平均 累积 绝对 误差 对 动态 EE 用 
重 构 中 使 用 的 预测 时 间 步 的 图 形 。 正 如 期 户 0 20 nant EE 80 100 
的 那样 ， 实 验 结果 为 CKF 和 CDKF. EKF 


; 、 图 15. 16 Mackey-Glass 吸引 子 动态 重 构 自 主 预 测 
BCAA ROE SERIES 阶段 中 总 体 平均 累积 绝对 误差 曲线 


15. 12” 自 适应 考虑 


递归 神经 网 络 (如 RMLP) 的 一 个 有 趣 的 性 质 是 在 网 络 以 监督 方式 训练 后 观测 到 的 自 适应 
行为 的 显露 % 。 这 一 现象 的 出 现 无 视 网 络 突 触 权 值 已 经 固定 的 事实 。 这 一 自 适应 行为 可 以 追 潮 
到 如 下 的 基本 定理 (Lo and Yu, 1995b): 

考虑 在 具有 相对 小 的 统计 行为 变化 的 随机 环境 中 的 递归 神经 网 络 。 如 果 环 境 的 内 在 概率 分 
布 是 通过 提供 给 网 络 的 监督 训练 样本 完全 表示 的 ， 这 一 网 络 可 能 自 适 应 到 相对 小 的 环境 的 统计 
变化 ， 不 需要 对 网 络 的 突 触 权 值 做 更 多 在 线 修正 。 
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这 一 基本 定理 仅 对 递归 网 络 有 效 。 我 们 这 样 说 是 因为 递归 网 络 的 动态 状态 实际 上 是 作为 
“ 短 时 记忆 ”， 包 含 了 网 络 所 在 用 于 自 适 应 的 不 确定 环境 的 估计 或 统计 。 

这 一 自 适应 行为 在 文献 中 称呼 不 同 。 在 Lo (2001) 中 ， 它 被 称 为 适应 学 习 (accommoda- 
tive learning) 。 在 同一 年 发 表 的 另 一 个 论文 中 (Younger 等 ，2001) ， 它 被 称 为 元 -学 习 (meta- 
learning) ， 意 味 着 “学 习 如 何 去 学 习 ”。 从 此 ， 我 们 将 称 这 种 自 适应 行为 “元 -学 习 ”。 

不 管 这 个 自 适 应 行为 是 如 何 称呼 ， 并 不 能 期 望 它 和 真正 的 自 适应 神经 网 络 工作 得 一 样 有 
效 ， 此 时 如 果 环 境 表现 出 大 的 统计 变化 将 提供 自主 在 线 权 值 调整 。 这 一 观测 在 Lo(2001) 中 通 
过 实验 证 实 ， 此 时 在 使 用 元 -学 习 的 递归 神经 网 络 和 具有 长 时 和 短 时 记忆 的 自 适应 神经 网 络 之 
间 进 行 了 性 能 比较 ; 比较 评估 是 在 系统 辨识 的 背景 下 完成 的 。 

无 论 如 何 ， 递 归 神 经 网 络 的 元 -学 习 能 力 可 看 成 是 控制 和 信号 处 理应 用 中 期 望 的 性 质 ， 尤 
其 是 在 突 触 权 值 的 在 线 调整 不 是 实际 可 行 或 者 完成 这 一 工作 代价 太 高 的 时 候 。 

自 适 应 评价 

对 感 兴趣 的 应 用 来 说 如 果 递 归 神 经 网 络 的 监督 训练 不 能 得 到 期 望 响应 ， 已 有 的 非 监 督 训练 
方法 不 能 足够 快 地 收 仿 ， 则 强化 学 习 〈 即 和 逼近 动态 规划 ) 可 能 是 仅 有 的 可 用 选择 。 从 第 12 章 ， 
我 们 回顾 逼近 动态 规划 ， 一 个 智能 体 〈 即 学 习 系 统 ) 需要 从 其 所 在 的 环境 仅 对 智能 体 采 取 的 行 
动 有 响应 。 基 本 上 ， 在 智能 体 和 其 环境 间 的 实时 交流 是 我 们 需要 构造 短 时 记忆 以 允许 递归 神经 
网 络 的 内 部 状态 自 适应 到 环境 的 统计 变化 。 

递归 神经 网 络 的 突 触 权 值 固 定 后 ， 内 部 状态 能 够 自 适应 的 唯一 途径 是 通过 作用 于 网 络 内 部 
递归 节点 激活 上 的 调整 ， 该 激活 由 式 (15. 60) 测 量 方程 中 的 向 量 w 来 记 。 因 此 ， 与 作用 于 隐藏 
权 值 向 量 w, 的 监督 调整 不 同 ， 对 向 量 w 的 调整 是 直接 作用 于 式 (15. 60) 的 测量 方程 上 的 。 

图 15. 17 的 块 状 图 画 出 了 围绕 固定 权 值 递 归 神 经 网 络 建立 的 方案 ， 此 时 递归 节点 激活 能 实 
时 自 适 应 。 具 体 来 说 ， 我 们 具有 自 适 应 评价 (adaptive critic) ， 它 接受 两 个 输入 ， 一 个 是 从 网 
络 而 来 ， 另 一 一 个 是 从 响应 于 网 络 采取 的 相关 行动 〈 如 智能 体 ) 的 环境 而 来 。 作 为 这 两 个 输入 的 
响应 ， 自 适应 评价 计算 网 络 内 部 递归 节点 行为 的 合适 调整 。 

作为 总 结 ， 我 们 可 以 说 通过 使 用 自 适应 评价 ， 递 归 神 经 网 络 装备 有 下 面 两 种 形式 的 记忆 ， 

L 长 时 记忆 ， 它 是 网 络 自身 通过 监督 训练 而 取得 ， 其 结果 是 固定 权 值 集 。 

2. 短 时 记忆 ， 它 使 得 网 络 能 够 自 适应 其 内 部 状态 〈 即 递归 节点 激活 ) 于 环境 的 统计 变化 ， 
不 影响 固定 权 值 。 

值得 注意 的 是 通过 和 环境 的 连续 交流 ， 短 时 记忆 能 发 展 成 无 模型 设置 (model-free set- 
ting) ， 这 在 Prokhorov(2007) 中 描述 。 






递归 节点 | 
激活 v, 的 控制 | 


图 15.17 递归 神经 网 络 〈 假 设 具有 单一 输出 ) 中 使 用 自 适应 评价 来 控制 递归 节点 激活 的 块 状 图 
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15.13 实例 学 习 : 应 用 于 神经 控制 的 模型 参考 


在 本 章 的 最 后 一 个 主题 中 ， 我 们 讨论 一 个 实例 学 习 ， 它 不 仅 非常 适合 本 章 ， 而 且 将 本 书 前 
面 章 中 讨论 过 的 几 个 主题 放 到 了 一 起 。 

具体 而 言 ， 我 们 讨论 递归 神经 网 络 在 反馈 控制 系统 设计 中 的 重要 应 用 ， 此 时 设备 (plant) 
的 状态 和 强加 的 控制 非 线性 耦合 。 系 统 的 设计 因为 其 他 因素 而 变 得 更 加 复杂 ， 如 未 测量 的 随机 
分 布 的 存在 、 不 唯一 设备 闭 的 可 能 性 、 设 备 状态 不 可 观测 等 。 

适合 使 用 递归 神经 网 络 的 控制 策略 是 模型 参考 控制 Cmodel-reference control) (Narendra 
and Annaswamy, 1989; Puskorius and Feldkamp, 2001; Prokhorov，2006)。 如 图 15.18 所 
示 ， 模 型 参考 控制 系统 包括 五 个 函数 分 量 : 

1. 设备 ， 它 被 控制 以 补偿 设备 动态 的 改变 。 作 为 控制 信号 和 其 自身 参数 向 量 @ 的 函数 的 
设备 输出 随时 间 而 演化 ， 其 中 8 中 的 时 间 参 数 & 远 远 不 如 时 间 索 引 n KREMER. HIM, O 
可 以 是 分 段 常 数 的 ，& 变化 时 它 从 一 个 常数 层 转换 到 男 一 个 。 

2. 神经 控制 器 ， 它 以 由 递归 多 层 感知 器 为 例 的 递归 网 络 组 成 。 它 提供 作用 在 设备 输入 上 
的 控制 信号 。 这 一 信号 作为 参考 信号 、 反 馈 信 号 的 函数 变化 ， 控 制 器 的 权 值 向 量 记 为 w。 

3. 模型 参考 ， 它 被 假设 为 稳定 的 。 模 型 参考 提供 响应 于 参考 信号 的 期 望 信号 作为 输入 。 

4. 比较 器 ， 由 求 和 单元 表示 ， 它 比较 设备 输出 和 模型 参考 的 期 望 响 应 来 产生 误差 信号 。 

5. 单位 时 间 延 迟 模块 ， 表 示 为 z !I， 它 通过 配 比 设备 输出 向 量 元 素 和 参考 信号 元 素来 关 
闭 围绕 设备 的 反馈 循环 ;， 事实 上 ， 人 外 部 递归 网 络 是 通过 反馈 循环 来 实现 的 。 


参考 信号 8 








图 15.18 模型 -参考 自 适应 系统 


由 这 一 描述 ， 很 明显 设备 输出 是 通过 控制 信号 和 设备 自身 参数 向 量 6 的 直接 函数 的 神经 
控制 器 权 值 向 量 w 的 非 直 接 函 数 。 我 们 因此 可 以 将 设备 输出 表示 为 yp Cn,w,8:)， 其 中 下 标 i 
表示 设备 操作 的 特别 样 例 。 设 备 输出 显 式 依赖 于 时 间 ”是 包含 在 强调 设备 非 稳定 行为 上 的 。 相 
应 地 ， 令 ynm 记 模 型 参考 对 同一 样 例 的 输出 。 参 考 信 号 对 模型 参考 自 适 应 控制 系统 的 两 个 
前 向 路 径 是 共同 的 ; 我 们 在 设备 输出 或 模型 参考 输出 中 不 包含 对 参考 信号 的 依赖 来 简化 问题 。 

误差 信号 通过 对 每 个 样 例 i 的 模型 参考 输出 和 设备 输出 之 间 的 差 来 定义 。 因 此 形成 均 方 
误差 ， 

169181) = DYDD Ih yur Gm) = vin nw) 时 (15. 67) 


其 中 内 部 的 求 和 是 在 训练 神经 控制 器 的 整个 样 例 集合 上 进行 的 ， 外 面 的 求 和 是 在 整个 训练 过 程 
1<nX<T 上 取 的 。 为 了 给 出 对 于 参数 改变 和 外 部 扰动 〈 后 者 在 图 15. 18 中 给 出 ) 和 鲁 棒 的 神经 控 
制 器 的 设计 ， 通 过 这 样 的 方式 来 调整 神经 控制 器 的 权 值 向 量 w， 即 均 方 误差 J(w,8) 和 其 最 
大 值 在 设备 的 参数 向 量 9 的 所 有 可 能 值 上 衰减 (Prokhorov，2006)。 这 一 最 优 性 使 得 设备 输 
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出 追踪 模型 参考 输出 。 

在 图 15. 18 中 的 模型 参考 控制 系统 标 为 “设备 ”的 块 具有 双重 意义 ,依赖 于 从 神经 控制 器 
的 角度 是 如 何 看 的 : 

。 一 种 意思 是 作为 设备 被 控制 的 实际 系统 。 

。 另 一 个 意思 是 那个 实际 系统 的 模型 。 

相应 地 ， 我 们 可 以 利用 直接 控制 〈direct control) 来 补偿 设备 动态 中 的 不 确定 性 ， 此 时 实 
际 设备 被 用 于 控制 系统 ， 或 者 采用 间接 控制 〈indirect control) ， 此 时 设备 模型 被 用 于 控制 系统 
(Adetona 等 ，2000) 。 

在 多 种 情形 下 ， 我 们 发 现 设备 基于 物理 的 模型 〈 即 被 控制 的 实际 系统 ) 是 适当 的 ; 在 工业 
中 这 样 的 模型 的 有 效 性 是 常见 的 ， 这 是 对 时 间 以 及 努力 的 大 量 投资 的 结果 上 知道 的 。 作 为 将 
代 ， 我 们 可 以 利用 在 导言 中 讨论 的 系统 辨识 原则 来 建立 设备 的 基于 神经 网 络 的 模型 。 然 而 典型 
地 ， 我 们 发 现下 面 情况 (Prokhorov, 2006): 

1. 基于 物理 的 模型 比 基 于 神经 网 络 的 模型 更 精确 。 

2. 基于 物理 的 模型 不 包括 专用 可 微 元 素 。 
Prokhorov(2006) 报告 的 用 于 训练 神经 控制 器 的 方法 是 方 根 状态 估计 算法 的 修正 版 本 ， 方 根 状 
态 估 计算 法 是 由 N6rgaard 等 (2000) 提出 。 如 前 所 述 ， 这 一 算法 合适 称 为 中 心 差分 卡尔 曼 滤 
波 器 (CDKF)。 

在 Prokhorov(2006) 中 给 出 的 实验 结果 不 仅 通过 非 线性 逐次 状态 估计 框架 验证 神经 控制 
器 的 训练 ， 也 描述 了 由 无 导数 CDKF 算法 所 获得 的 比 依赖 于 导数 的 EKF 算法 更 好 的 精度 。 


15. 14 小结 和 讨论 


递归 网 络 模 型 

本 章 讨论 涉及 应 用 全 局 反馈 到 静态 (无 记忆 ) 多 层 感知 器 的 递归 网 络 。 反 馈 的 应 用 使 得 神 
经 网 络 获得 状态 表示 ， 使 得 它们 成 为 信号 处 理 和 控制 中 各 种 应 用 的 合适 工具 。 属 于 有 全 局 反馈 
的 递归 网 络 类 型 的 四 个 主要 网 络 结构 如 下 : 

。 使 用 从 输出 层 反馈 到 输入 层 的 具有 外 部 输入 的 非 线性 自 回 归 (NARX) 网 络 。 

。 具有 从 隐藏 层 到 输入 层 反馈 的 完全 连接 递归 网 络 。 

。 有 多 于 一 个 隐藏 层 的 递归 多 层 感 知 器 ， 其 中 每 个 计算 层 输 出 反馈 到 它 自 己 的 输入 。 

。 使 用 二 阶 神经 元 的 二 阶 递归 网 络 。 

在 所 有 这 些 递 归 网 络 中 ， 反 馈 通过 抽 头 延迟 线 记忆 。 

前 三 个 递归 网 络 可 以 使 用 状态 空间 框架 研究 其 动态 行为 。 这 个 根植 于 现代 控制 论 的 方法 提 
供 一 个 研究 非 线性 动态 递归 网 络 的 有 力 工具 。 
递归 神经 网 络 的 性 质 

下 面 是 递归 神经 网 络 的 一 些 重 要 性 质 : 

1. 它们 是 非 线性 动态 系统 的 通用 逼近 器 ， 如 果 它 们 具有 充分 多 的 隐藏 神经 元 的 话 。 

2. 它们 是 局 部 可 控制 和 局 部 可 观测 的 ， 如 果 它 们 的 线性 方案 满足 围绕 平衡 点 的 一 定 条 件 
的 话 。 : 

3. 给 定 任 意 的 有 限 状 态 机 器 ， 我 们 能 够 建立 作为 黑 盒 机 器 的 递归 神经 网 络 ， 其 行为 像 有 
限 状 态 机 器 。 . 

4. 递归 神经 网 络 表现 出 元 -学 习 〈 即 学 习 如 何 学 习 ) 的 能 力 。 
事实 上 ， 正 是 这 些 性 质 使 得 递归 神经 网 络 适合 于 计算 、 控 制 、 信 号 处 理 等 的 应 用 。 
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基于 梯度 的 学 习 算 法 

在 本 章 中 ， 我 们 讨论 了 两 种 基于 监督 学 习 算 法 的 训练 递归 网 络 的 算法 : 通过 时 间 的 反 
向 传播 (BPTT) ， 实 时 递归 学 习 (RTRL)。 这 两 者 是 建立 在 梯度 基础 上 的 ， 这 使 其 执行 
时 计算 简单 。BPTT 更 适合 于 离线 学 习 ， 而 由 定义 RTRL 是 设计 用 于 在 线 学 习 的 。 然 而 ， 
这 两 个 算法 的 实际 局 限 是 消失 梯度 问题 ， 这 是 因为 它们 不 能 使 用 训练 数据 中 的 二 阶 信息 
而 导致 的 。 
基于 非 线性 逐次 状态 估计 的 监督 学 习 算 法 

克服 消失 梯度 问题 的 一 个 有 效 的 方法 是 利用 非 线性 逐次 状态 估计 来 为 递归 多 层 感知 器 提供 
监督 训练 。 这 里 我 们 具有 两 个 可 用 的 选择 : 

L 因为 其 计算 简单 性 ， 我 们 可 以 使 用 扩展 卡尔 曼 滤波 器 (EKF). RM, 我们 必须 利用 
BPTT 或 RTRL 算法 来 为 属于 递归 神经 网 络 的 测量 模型 提供 线性 化 。 

2. 我 们 可 以 利用 无 导数 非 线 性 逐次 状态 估计 ， 以 第 14 章 描 述 的 数值 积分 卡尔 曼 滤 波 器 
(CKF) 和 本 章 简单 介绍 的 中 心 差 分 卡尔 曼 滤 波 器 (CDKF) 为 例 。 这 样 ， 我 们 不 仅 拓 宽 了 这 
一 新 方法 对 监督 学 习 的 应 用 ， 也 提高 了 数值 精度 。 然 而 ， 要 付出 的 代价 是 增加 计算 需求 。 

在 这 三 个 非 线性 滤波 器 中 ，CKF 的 突出 性 不 仅 体 现在 其 最 逼近 于 贝 叶 斯 滤波 器 (至 少 从 
概念 意义 上 是 最 优 的 ) 也 因为 其 在 三 者 中 是 最 强大 的 。 假 设 高 斯 性 ，CKF 的 构造 受 卡尔 曼 滤 
波 理论 〈 如 革新 过 程 ) 的 影响 ， 如 第 14 章 所 讨论 的 那样 。 

不 论 怎样 ， 监 督学 习 的 这 一 新 方法 是 好 的 ， 如 图 15. 14 的 EKF 块 状 图 所 证 明 。 更 重要 的 
是 ， 这 一 过 程 可 以 应 用 于 递归 神经 网 络 和 其 他 的 神经 网 络 (如 多 层 感知 器 )。 而 且 ， 因 为 这 一 
通用 应 用 性 ， 我 们 可 以 将 这 一 类 监督 学 习 的 非 线 性 逐次 状态 估计 算法 (包括 EKF, CDKF, 
CKF) 作为 启动 技术 (enabling technology)， 使 其 能 够 解决 困难 的 信号 处 理 和 控制 问题 ， 尤 其 
是 大 规模 学 习 问 题 中 二 阶 信息 的 使 用 几乎 是 “必须 ”的 。 

从 理论 上 ， 具 有 全 局 反馈 的 递归 网 络 lin, A EKF 算法 训练 的 递归 多 层 感知 器 ) 能 通 
过 把 训练 样本 中 获得 的 知识 存储 到 权 值 固定 集中 学 习 非 稳定 环境 下 的 内 在 动力 学 。 更 重要 的 
是 ， 网 络 能 够 追踪 环境 的 统计 变化 ， 如 果 下 面 的 两 个 条 件 得 到 满足 ， 

。 递归 网 络 不 发 生 欠 适应 〈underfitting) 或 过 适应 〈overfitting) 。 

。 训练 样本 能 表示 环境 的 小 的 统计 变化 。 

多 路 训练 

在 图 15. 14 中 描述 的 递归 网 络 监督 训练 方法 可 能 从 称 为 多 路 训练 《multistream training) 
的 过 程 中 获 益 。 这 一 过 程 应 用 于 这 样 的 情形 : 通过 利用 多 样本 模式 的 优点 坐标 权 值 更 新 (co- 
ordinated weight update) 是 有 利 的 (Puskorius and Feldamp, 2001). 

在 神经 网 络 的 监督 训练 中 ， 依 赖 于 输入 -目标 响应 对 训练 序列 的 性 质 可 能 出 现 两 种 方案 : 

1. 同 种 序列 (homogeneous sequences)， 此 时 通过 训练 数据 的 一 个 或 多 个 通过 可 以 很 好 地 
产生 满意 结果 。 

2. 异种 序列 Cheterogenous sequences), ， 此 时 ， 例 如 ， 可 能 在 输入 -目标 响应 对 中 快速 变 
化 区 域 之 后 紧 随 着 慢 速 变化 区 域 。 

在 后 一 种 方案 下 ， 存 在 着 标准 训练 过 程 中 网 络 权 值 为 了 当前 出 现 的 训练 数据 而 不 适当 更 新 
的 倾 血 ， 我 们 称 之 为 新 近 效 应 (recency effect). 对 于 前 馈 网 络 ， 有 效 的 解决 办 法 是 打 乱 
(shuffle) 提供 给 神经 网 络 的 训练 数据 的 顺序 ， 或 者 利用 训练 的 批量 形式 ; 这 两 种 方法 都 在 第 
4 章 中 讨论 过 。 对 递归 神经 网 络 ， 打 乱 数 据 顺 序 的 直接 模型 是 随机 选择 子 序 列 ; 这 样 做 具有 仅 
对 子 序列 最 后 的 输入 -目标 响应 对 进行 权 值 更 新 的 效果 。 例 如 ， 在 利用 EKF 算法 的 训练 过 程 的 
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情形 ， 是 完全 的 批量 更 新 。 它 通过 完整 的 训练 样本 运行 递归 网 络 ， 对 每 一 个 输入 -目标 响应 对 
计算 必要 的 偏 导数 ， 然 后 基于 整个 估计 误差 集 更 新 网 络 权 值 。 

多 路 训练 过 程 通过 打 乱 〈 即 随机 选择 子 序 列 ) 和 批量 更 新 的 组 合 应 用 来 克服 新 近 效 应 。 特 
别 地 ， 多 路 训练 基于 这 样 的 原则 ， 每 一 次 权 值 更 新 都 代表 着 联 立 方式 下 多 个 输入 -目标 响应 对 
的 信息 内 容 。 

作为 最 后 的 备注 ， 多 路 训练 不 仅 在 使 用 EKF 算法 时 是 可 用 的 ， 也 在 使 用 无 导数 非 线性 逐 
次 状态 算法 (如 CDKF 和 CKF) 时 可 用 。 

最 终结 束 备 注 : 大 规模 学 习 问 题 

作为 本 章 的 最 后 一 个 小 节 ， 而 本 章 也 是 全 书 的 最 后 一 章 ， 本 节 将 讨论 大 规模 学 习 问 题 。 特 
别 地 ， 在 前 面 的 三 个 章节 中 也 以 一 定 篇 幅 讨 论 过 这 一 问题 : 

。 在 关于 多 层 感 知 器 的 第 4 章 中 ， 学 习 了 大 规模 学 习 问 题 和 小 规模 学 习 问 题 的 比较 。 

。 在 关于 正则 理论 的 第 7 章 中 ， 我 们 利用 可 微 流 形 来 构造 能 够 开发 包含 在 标注 训练 样本 

和 未 标注 样本 中 信息 的 半 监 督学 习 策略 。 
。 然后 再 次 在 动态 规划 的 第 12 章 中 ， 维 数 灾 问 题 在 处 理 大 规模 动态 环境 时 成 为 严重 关心 
的 问题 。 
在 模式 分 类 和 非 线 性 回归 监督 学 习 问 题 的 背景 下 ， 处 理 这 些 问 题 的 过 程 是 容易 理解 的 ， 这 由 本 
书 中 给 出 的 内 容 得 到 验证 。 另 一 方面 ， 能 够 正当 地 宣称 大 规模 学 习 问 题 的 研究 还 处 在 早期 
阶段 。 

事实 上 ， 我 们 可 以 将 大 规模 学 习 问 题 看 成 是 关于 学 习 的 未 来 〈future of learning) 的 视窗 。 
这 一 视窗 将 我 们 直接 带 到 实际 世界 。 相 应 地 ， 我 们 可 以 辨别 在 处 理 大 规模 学 习 问 题 时 的 四 个 具 
体 阶段 ， 

L 用 于 训练 数据 源 的 详细 清单 的 开发 。 这 第 一 阶段 是 非常 重要 的 ， 因 为 毕竟 训练 数据 提 
供 了 属于 这 一 问题 的 实际 世界 和 被 研究 来 解 这 一 问题 的 学 习 机 之 间 的 联系 。 这 一 训练 数据 源 的 
清单 可 能 包括 : 

。 高 质量 有 标签 数据 。 

。 不 是 那么 高 质量 的 有 标签 数据 。 

。 大 量 无 标签 数据 。 

给 定 这 样 训练 数据 的 混合 ， 挑 战 在 于 如 何 构 造 值得 追求 的 训练 策略 的 不 同方 案 ， 在 计算 资 
源 有 限 的 情况 下 实现 。 

2. 相应 于 生成 训练 数据 的 环境 的 模型 化 。 在 第 二 个 阶段 ， 挑 战 在 于 构成 网 络 模 型 ， 它 具 
有 足够 多 的 自由 度 并 且 是 正确 的 。 在 构造 中 的 旭 标 是 捕获 相应 于 数据 生成 的 环境 的 内 在 统计 物 
理 过 程 (性 质 )。 这 一 问题 的 实质 是 ， 除 非 这 一 问题 被 正确 解决 ， 否 则 将 不 可 避免 地 在 数据 生 
成 的 物理 现实 和 提案 的 网 络 模型 理论 基础 之 间 存 在 不 匹配 。 如 果 模 型 的 不 匹配 很 严重 的 话 ， 此 
后 无 论 怎么 做 也 不 能 治愈 模型 的 缺陷 。 

3. 用 于 估计 网 络 模 型 可 调整 参数 的 算法 选择 。 第 三 个 阶段 的 挑战 性 在 于 我 们 必须 选择 以 
计算 有 效 的 方式 良好 适合 于 估计 模型 未 知 参 数 的 算法 。 更 精确 地 ， 网 络 模型 必须 具有 从 输入 到 
输出 的 充分 深度 来 有 效 地 处 理 问题 。 

4. 可 调整 参数 的 最 优 估计 。 最 后 的 挑战 是 选择 具有 可 靠 地 提取 训练 数据 信息 内 容 的 内 在 
能 力 的 优化 算法 。 典 型 地 ， 二 阶 信 息 被 认为 是 适合 的 。 最 重要 的 是 ， 优 化 算法 必须 是 计算 效率 
高 的 。 在 这 一 背景 下 ， 有 两 个 潜在 的 候选 者 : 

。 非 线 性 逐次 估计 算法 ， 以 数值 积分 卡尔 曼 滤 波 器 为 例 。 
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。 二 阶 优化 算法 ， 以 高 斯 -牛顿 和 Levenberg-Marquardt 算法 的 在 线 方案 为 例 ， 当 估计 精 
度 被 合理 地 良好 保持 时 ， 找 到 了 免除 精确 计算 Hessian 矩阵 的 方法 。 
我 们 以 这 样 的 说 法 来 结束 本 书 : 在 解 实际 世界 大 规模 学 习 问 题 时 ， 认 真 地 对 待 这 里 描述 的 
四 个 阶段 我 们 才能 确信 实现 成 功 解 。 


注释 和 参考 文献 


1. 关于 其 他 递归 网 络 结构 ， 参 考 Jordan(1986), Back and Tsoi(1991), Frasconi 等 〈1992) 。 

2. NARX 模型 包括 一 类 重要 的 非 线性 离散 时 间 系 统 (Leontaritis and Billings，1985) 。 涉 及 神经 网 络 这 方面 的 
讨论 可 以 参考 Chen 等 (1990)、Narendra and Parthasarathy (1990), Lin 等 (1996) 和 Sieglemann 等 
(1997). 

已 经 证 实 NARX 模型 十 分 适合 对 非 线性 系统 进行 建 模 ， 如 热 交换 器 〈Chen 等 ，1990)， 污 水 处 理 设 备 
(Su and McAvoy, 1991; Su 等 ，1992) ， 用 于 石油 提炼 的 催化 更 新 系统 (Su 等 ，1992)， 在 生物 系统 中 的 
多 肢 移 动 的 非 线性 振 葛 (Venkataraman, 1994) 和 语法 推理 〈Giles and Horne, 1994). 

NARX 模型 也 指 非 线性 自 回 归 滑 动 平均 (NARMA) 模型 ， 其 中 “滑动 平均 ”是 对 于 输入 而 言 。 

3. 递归 多 层 感知 器 是 延 时 递归 神经 网 络 CTLIRNN) 的 特例 。 这 一 递归 网 络 的 一 般 类 允许 使 用 神经 网 络 节点 问 
连接 的 任意 模式 ; 另 一 方面 ,递归 多 层 感 知 器 具有 连接 的 层 模式 。TLRNN 提供 下 面 重 要 的 特性 〈Lo， 
1993); 

(i) 它们 包含 传统 的 结构 如 有 限时 宽 脉 冲 响应 (FIR)。 
GD 它们 具有 解释 非 线性 动态 系统 中 强 隐藏 状态 的 内 在 能 力 。 
GD 它们 是 非 线性 动态 系统 的 通用 逼近 。 

4. Omlin and Giles(1996) 指出 ， 用 二 有 阶 递归 网 络 ， 任 何 有 限 状态 自动 机 可 以 映射 到 这 样 一 种 网 络 ， 且 可 以 保 
证 有 限 长 度 的 时 序 序列 的 正确 分 类 。 

5. 可 控 性 和 可 观测 性 的 严格 处 理 可 以 参考 Zadeh and Desoer(1963), Kailath(1980) Sontag(1990) 。 

6. 有 关 神 经 网 络 和 自动 机 〈 实 际 上 是 串 行 机 器 -自动 机 的 实现 ) 方面 的 最 旱 工 作 ， 即 第 一 篇 关于 有 限 状 态 自动 
机 、 人 工 智能 和 递归 神经 网 络 方面 的 论文 ， 是 McCulloch and Pitts(1943) 的 经 典 的 论文 。 递归 网 络 (具有 
瞬时 反馈 ) 是 这 篇 论文 的 第 二 部 分 ， 这 在 Kleene(1956) 被 解释 为 一 个 有 限 状 态 自 动机 。Kleene 的 论文 出 
现在 由 Shannon 和 McCarthy 编辑 的 《自动 机 研究 》(Automata Studies) 一 书 中 (这 本 惊 世 之 作 的 作者 还 包 
括 Moore, Minsky, von Neumann、Uttley、McCarthy 和 Shannon SEA), ATE, Kleene 的 论文 被 作为 有 
限 状 态 机 器 方面 的 第 一 篇 文章 引用 (Perrin, 1990), Minsky(1967) 在 他 的 《计算 ， 有 限 和 无 限 机 器 》 
(Computation; Finite and Infinite Machines) 一 书 中 讨论 自动 机 和 神经 网 络 。 

所 有 关于 自动 机 和 神经 网 络 方面 的 早期 工作 主要 考虑 怎样 将 二 者 结合 在 一 起 ， 即 如 何 建 造 和 设计 自动 
机 到 神经 网 络 中 去 。 因 为 大 多 数 自动 机 〈 当 被 实现 为 串 行 机 器 的 时 候 ) 需要 反馈 ， 神 经 网 络 必须 为 递归 的 。 
注意 早期 的 工作 (除了 Minsky 的 ) 并 没有 明确 地 区 分 自动 机 《有 向 图 、 标 记 图 和 无 圈 图 ) 和 串 行 机 器 CE 
辑 延 时 和 反馈 延 时 ) ， 大 多 数 情 况 下 仅 考虑 有 限 状 态 自 动机 ， 而 对 于 提高 自动 机 的 层次 到 下 推 自动 机 和 图 灵 
机 没有 什么 兴趣 (RT Minsky 之 外 ) 。 

在 神经 网 络 的 黑暗 时 代 过 去 之 后 ， 关 于 自动 机 和 神经 网 络 方面 的 研究 在 20 世纪 80 年 代 又 开始 了 。 这 
个 工作 可 以 大 概 分 为 下 面 三 个 大 的 领域 ， (1》〉 学 习 自 动机 ; (2〉 自 动机 关于 知识 的 合成 、 抽取 和 提炼 ; 
(2) 表示 。 首 先 提 到 自动 机 和 神经 网 络 的 是 Jordan(1986)。 

7. 使 用 McCulloch-Pitts 神经 元 的 单 屋 递 归 网 络 不 能 模拟 任何 有 限 状 态 的 机 (Goudreau 等 ，1994) ， 但 Elman 
的 简单 递归 网 络 可 以 进行 这 样 的 模拟 (Kremer, 1995). 只 有 局 部 反馈 的 递归 网 络 不 能 表示 所 有 有 限 状 态 
机 CFrasconi and Gori, 1996; Giles 等 ，1995; Kremer, 1996) 。 换 句 话 说， 全 局 反馈 的 使 用 是 通过 神经 网 
络 模拟 有 限 状 态 的 必要 需求 。 

8. 通过 时 间 的 反 向 传播 的 思想 ， 是 对 于 每 一 个 递归 网 络 都 可 能 建立 一 个 前 馈 网 络 ， 使 之 在 一 个 特定 的 时 间 间 
隔 内 具有 和 它 相同 的 行为 (Minsky and Papert，1969) 。 通 过 时 间 的 反 向 传播 首先 在 Werbos(1974) 的 博士 
论文 讨论 过 ; 也 可 以 参考 Werbos(1990) 。 这 个 算法 由 Rumelhart 等 ，(1986b) 独立 地 重新 发 现 。 通过 时 间 
的 反 向 传播 算法 的 一 个 变 体 由 Williams and Peng(1990) 所 讨论 。 对 于 算法 的 综述 和 相关 的 问题 ， 可 以 参考 
Williams and Zipser(1995) 。 
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9. 实时 递归 学 习 算法 在 神经 元 网 络 文献 中 的 第 一 次 描述 是 Williams and Zipser(1989) 。 其 来 源 可 以 追 潮 到 


10. 


11. 


12. 


13. 


McBride and Narendra(1965) 用 于 调节 任意 动态 系统 参数 的 系统 辨识 的 论文 。 


Williams 和 Zipser 给 出 的 推导 是 关于 完全 递归 的 单 层 神经 网 络 。 它 已 扩展 为 更 一 般 的 结构 ; 例如 ， 参 


Æ Kechriotis 等 (1994); Puskorius and Feldkamp(1994)。 


Schraudolph(2002) 描述 了 随机 元 下 降 (stochastic meta-descent) (SMD) 算法 ， 其 中 提出 了 通过 迭代 逼近 
来 放弃 计算 精确 的 Hessian 矩阵 的 概念 。 特 别 地 ， 一 个 特殊 的 弧度 和 矩阵- 向量 积 被 引入 到 如 高 斯 -牛顿 和 
Levenberg-Marquardt 方法 等 迁 代表 近 二 阶梯 度 方法 中 ， 得 到 改进 的 稳定 性 和 性 能 。 
Singhal and Wu(1989) 也 许 是 第 一 个 展示 用 扩展 卡尔 曼 滤波 器 提高 监督 神经 元 网 络 的 映射 性 能 。 不 幸 的 
是 ,那里 讨论 的 训练 算法 受 限 于 它 计 算 的 复杂 性 。 为 克服 这 个 困难 ，Kollias and Anastassiou(1989), Shah 
and Palmieri(1990) 尝试 通过 将 全 局 问题 分 为 一 系列 子 问题 ， 每 个 子 问题 表示 一 个 单一 的 神经 元 ， 以 简化 
扩展 卡尔 曼 滤波 器 的 应 用 。 但 是 作为 一 个 辨识 问题 的 每 一 个 神经 元 的 处 理 并 不 是 严格 地 遵守 卡尔 曼 滤 波 器 
理论 。 还 有 ， 这 样 处 理会 导致 训练 过 程 中 的 不 稳定 行为 ， 并 且 可 能 得 到 比 别 的 方法 得 到 的 结果 还 差 的 解 
(Puskorius and Feldkamp, 1991), 
在 Prokhorov(2006, 2007) 和 相关 的 论文 中 ， 由 Noérgaard, Poulsen, and Ravn(2000) 而 来 的 逐次 状态 估 
计算 法 被 称 为 nprKF 算法 ， 其 中 “npr” 是 从 算法 的 三 个 作者 的 第 一 个 字母 中 取出 。 在 本 章 中 ， 我 们 优先 
选择 将 这 一 算法 命名 为 中 心 差分 卡尔 受 滤 波 器 (CDKF)， 这 是 对 这 一 算法 基础 的 更 好 描述 。 
考虑 具有 变量 z 的 函数 了 (x)。 令 fi 记 函 数 在 x 一 xs 时 的 值 。 中 心 差分 定义 为 : 

Sfart = fer fe ”对 于 每 个 
其 中 左边 的 下 标 是 右边 两 个 下 标的 平均 。 下 面 的 表 高 阶 中 心 差分 是 如 何 构 造 的 : 








a. 12 

x, A af, 

fn & 3/2 

X h Sf h 
fen Sfin 

x; A CHA 

Fin 


X4 A 





注意 表 中 具有 相同 下 标的 元 素 总 是 处 于 水 平 或 中 心 Centrally) 展开 到 表 的 行 上 (Wylie and Barrett, 
1982), 


. 以 递归 多 层 感知 器 为 例 的 递归 神经 网 络 自 适 应 行为 的 出 现 ， 首 先 由 Lo and Yu(1995) 讨论 。 关 于 这 一 现 


象 的 更 多 参考 文献 BB Prokhorov 等 〈2002) 的 综述 论文 。 


习题 
状态 空间 模型 


15. 
15. 


15. 


1 写 出 图 15.3 Elman 简单 递归 网 络 状态 空间 模型 的 计算 公式 。 
2 TEA 15.4 的 递归 多 层 感知 器 可 以 用 状态 空间 模型 
Xaa == fx th) 
Yn = 8%, ot) 
表示 ， 其 中 u 表示 输入 ，y, 表示 输出 ，x, 表示 状态 , f(* , O Alec.) 表示 向 量 值 非 线 性 函数 。 
3 一 个 动态 系统 是 否 可 能 是 可 控 的 但 不 可 观测 的 ， 而 且 反 之 亦 然 ” 证 实 你 的 答案 。 


15.4 参考 15.4 节 的 局 部 可 控 性 问题 ， 证 实 


15. 


(a) 状态 x BERK x, 和 式 (15. 24) 的 输入 向 量 n WRIA BR. 
(Cb) x+ 对 由 的 Jacobi E MF TE I RAF R15. 23) 可 控 性 矩阵 ML 
5 参照 15.4 节 的 局 部 可 观测 性 问题 ， 证 明定 义 在 式 (15. 30 PH WR E Yo PRE x, HY Jacobi 矩阵 在 原 
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点 的 求 值 等 于 式 (15. 28) 的 可 观察 矩阵 M. 
15.6 非 线 性 动态 系统 的 系统 方程 由 
Xan = fx, n) 
He, Apu, 是 在 时 刻 n MAME, x, 是 对 应 的 系统 状态 。 输 入 n 在 系统 方程 中 以 非 加 性 的 方式 出 
现 。 在 本 题 中 ， 我 们 希望 重新 写 过 程 方程 ， 使 输入 mn 以 加 性 的 方式 出 现 。 这 需 写 成 
Ket = fnew (Xn) + wy 
给 出 向 量 x 和 以 及 函数 foo CO) 的 定义 公式 。 
15.7 图 P15.7 提出 在 神经 元 级 上 的 使 用 局 部 反馈 的 递归 网 络 模型 的 两 个 例子 。 在 图 P15. 7a 部 分 和 图 P15. 7b 
部 分 显示 的 体系 结构 分 别称 为 局 部 激活 反馈 和 局 部 输出 反馈 (Tsoi and Back，1994)。 对 这 两 个 递归 网 
络 的 体系 结构 ， 写 出 状态 空间 模型 公式 。 评 价 它们 的 可 控 性 和 可 观察 性 。 


神经 元 模型 






输入 ~~~ 
Mn 线性 动 
态 系统 


输出 
Yn 





























a) 局 部 激活 反馈 结构 b) 局 部 输出 反馈 结构 
图 P15.7 


有 外 部 输入 的 非 线 性 自 回归 (NARX) 模型 
15.8 考虑 图 P15.8 的 NARX 网络 ， 如 下 : 
(a) 构造 等 价 于 这 个 单 输入 单 输出 递归 网 络 的 等 价 状态 空间 模型 。 
(b) 当 图 P15. 8 被 扩展 到 包含 两 个 输入 和 两 个 输出 时 重复 (a) 部 分 的 习题 。 





























P15.8 具有 g=3 个 隐藏 神经 元 的 NARX 网 络 


15.9 建立 对 应 于 图 P15.9 中 的 完全 递归 网 络 的 NARX, 
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图 P15.9 


15.10 任何 状态 空间 模型 可 以 表达 成 NARX 模型 。 反 过 来 的 结果 如 何 ? 任何 的 NRAX 模型 是 否 都 可 以 表达 
成 15. 2 节 形式 的 状态 空间 模型 ? 说 明 你 的 结论 的 理由 。 

通过 时 间 的 反 向 传播 

15.11 展开 图 15.3 的 状态 空间 模型 的 时 序 行为 。 

15. 12 截断 的 BPTT(h) 算法 可 以 看 作 是 分 回合 的 BPTT 算法 的 近似 。 可 以 通过 将 分 回合 BPTT 算法 的 一 些 
方面 包括 进 BPTT(h) 来 提高 这 个 近似 程度 。 特 别 是 可 以 让 网 络 在 执行 下 一 个 BPTT 计算 前 通过 亡 个 
附加 步 ， 这 里 六 < 天 。 通 过 时 间 的 反 向 传播 的 混合 形式 的 重要 特征 是 下 一 个 后 向 传播 在 时 间 步 nth 
后 才 执 行 。 在 此 期 间 ， 网 络 过 去 输入 值 、 网 络 状 态 和 期 望 的 响应 都 存储 在 一 个 缓冲 区 里 面 ， 但 并 不 对 
它们 进行 处 理 。 在 这 个 混合 型 的 算法 中 给 出 神经 元 j 的 局 部 梯度 的 公式 。 


实时 递归 学 习 算 法 
15. 13 教师 强制 递归 网 络 在 训练 过 程 中 的 动态 以 下 面 的 方式 描述 
wn， WRLC M 
bin = fac wRIEC SE 
Mins WRLE BE 


其 中 %% 是 记 当 & 是 一 个 外 部 输入 时 下 标 为 i 的 集合 。 久 表示 当 E 是 一 个 神经 元 的 输出 时 下 标 i 的 集合 ， 
C 表示 可 见 的 输出 神经 元 的 集合 。 
(a) 证 明 对 这 个 格式 ， 偏 导数 9yj.n+1/3wu, 由 下 式 给 出 


Ontl 一 g Cor 5 win ( Yin ) + yb ) 
iE 


OW .n Wn 





(b) 对 于 教师 强制 递归 网 络 推导 训练 算法 。 

非 线 性 逐次 状态 估计 器 

15.14 描述 DEKF 算法 如 何 训练 图 15. 3 所 示 的 简单 递归 网 络 。 对 于 这 个 训练 也 可 用 BPTT 算法 。 

15.15 #2 15.2 给 出 EKF 算 法 用 于 RMLP 监督 训练 的 总 结 。 利 用 第 14 章 描述 的 方 根 滤波 理论 来 构造 这 一 算 
法 的 方 根 修正 。 

15.16 在 第 14 章 描述 了 取样 -重要 性 -再 取样 SIR》 粒子 滤波 器 。 这 一 滤波 器 是 无 导数 的 ， 因 此 可 以 尝试 建 
议 用 它 来 作为 递归 多 层 感 知 器 监督 训练 EKF 算法 的 替代 。 讨 论 这 一 方法 可 能 的 困难 。 


计算 机 实验 
15.17 在 这 一 习题 中 ,我 们 继续 在 第 6 章 的 习题 6. 25 中 关于 支持 向 量 机 的 计算 机 实验 。 我 们 具体 考虑 图 
P6. 25 的 紧 握 起 的 多 圆 盘 结构 的 困难 模式 分 类 实验 ,为 了 表示 的 方便 我 们 将 之 复制 在 这 里 作为 图 
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P15. 17。 然 而 这 一 次 ， 我 们 根据 15.10 节 描 述 的 路 线 来 学 习 基 于 扩展 卡尔 曼 滤 波 器 算法 的 多 层 感 知 器 
的 监督 训练 。 
对 于 多 层 感知 器 ， 利 用 下 面 的 结构 : 
。 两 个 隐藏 层 ， 在 第 一 个 隐藏 层 中 有 4 个 神经 元 ， 在 第 二 个 隐藏 层 中 有 3 个 神经 元 ; 对 所 有 的 隐藏 
层 神经 元 都 采用 ov) =tanh(v) 的 激活 函数 。 
。 线性 输出 层 。 
为 了 实现 模式 分 类 ， 生 成 100 个 回合 ， 每 个 网 合 包 含 200 个 随机 分 布 的 训练 样本 ， 对 图 P15. 17 的 两 
个 区 域 具有 相同 大 小 的 测试 数据 。 做 如 下 事情 : 
1. 对 于 变化 的 回合 数 ， 构 造 由 EKF 算法 计算 的 决策 边界 以 决定 “最 佳 ” 分 类 性 能 。 
2. 对 被 考虑 认为 是 “最 佳 ”的 分 类 性 能 ， 决 定 误 分 类 误差 。 
最 后 ， 比 较 你 用 EKF 算法 得 到 的 结果 和 在 习题 6. 25 中 用 支持 向 量 机 获得 的 结果 。 


了 








图 P15.17 三 个 圆 的 直径 : di 二 3, d; 一 6,， ds 一 9 
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